php盘古分词,百度分词技术_百度输入法分词怎么关_百度分词原理

b8cbf42deb97fac576c5a7afea04f12c.png

一直想把自己整理的

想做到天衣无缝,就必须认认真真学会百度分词技术,当然这些分词技术是王施帆个人推测分析出来的,百度自己的科研技术是不可能公开的,毕竟竞争对手那么多,都掌握了,市场也乱了不是?下面这些推测,肯定不是随随便便想出来的,是通过数据分析的,这点,请各位放心。

百度分词的4个原理:

1、基于理解:傻瓜式匹配,小于等于3个中文字符百度是不进行切词的,比如搜索“大学堂”。

2、基于统计:百度把一个词标红的原因:标红的词一般是一个关键词,你搜索“学”字的时候,百度它自认的把“学习”也当成了一个关键词,所以出现“学习”这个词标红,这就是百度分词法:基于统计分词。

3、基于字符串匹配(百度的分词法:正向最大切词法)

最大与最小(最大匹配:一直匹配到没词可配;最小匹配:匹配出词了就停止匹配,再从另一个词开始匹配)比如:百度搜索“湖南大学堂屋顶”,百度的一个分词算法我们把它当成一个黑盒子,我们通过一些输入关键词,根据百度的输出结果来判定百度的分词算法。正向与反向(正向:从前往后配;反向:从后往前配)(湖南大学堂屋顶)正向分法:湖南大学 堂屋 顶 (刘强大地方法)正向分法:刘 强大 地方 法。反向分法:方法 大地 刘 强。而在这个词语当中“大地”不是一个词。百度分词技术

4、基于专有词库。比如杰出人物(如:)明星(如:刘德华)检索量大的词(如:买票难) 。

分词工具(没有百度的,要是有,就会出现问题,收集了几个开源的分词工具,详细内容后续补充):

1、ICTCLAS – 全球最受欢迎的汉语分词系统

2、HTTPCWS – 基于HTTP协议的开源中文分词系统

3、SCWS – 简易中文分词系统

4、PhpanAlysis - PHP无组件分词系统

b480eda145e9af01ca987df02a7b6261.png

5 、MMSEG4J

6、盘古分词

7、IKAnalyzer 开源的轻量级中文分词工具包

中文分词API(百度不提供该服务):

新浪SAE平台上提供的分词功能

官网说明:,SAE分词系统基于隐马模型开发出的汉语分析系統,主要功能包括中文分词、词性标注、命名实体识别、新词识别。

调用规则:?key=simon&wd={语句}

百度分词的一些猜测:

1. 判断用户提交字符串,如果为多个字符串,则通过空格,标点符号,等进行切割。

2. 判断提交字符串中有无字母或者数字,如果有把字母与数字当作独立整体,并把这个整体当作切割负,进行前后切割。

3. 判断切割后的词组有无重复词,有当作一个计算。

4. 如果提交为一个字符串,判断字符串字数,大于4并等于4个字的进行切割,如果小于4个字不进行任何处理。

5. 对照特殊词库表进行提取,如果字符串中包含特殊词进行单独提取。

fec74047ea5e293be4d53fa02b2552c6.png

6. 进行正向分词处理。

7. 进行反向分词处理。

8. 正向分词结果与反向分词结果进行对比,如果结果一样,直接输出。

9. 如果结果不一样,输出最短路径(词数最少的)进行输出。

10. 如果长度一样进行则输出单子最少的结果。

11. 如果单子最少结果一样,则输出正向分词结果。

针对百度索引提示,纠错原理。

1.判读词组,1个字的词不进行提示,大于1个字开启提示功能。

1.进行同音字提示,如果词数过多,提取用户搜索最多词组进行提示。

除以上外,我们还需要注意一点,那就是现在分词中进行了语意相关结合:

举个例子我们常常在搜索某些词的时候会发现有些结果中并不是完全匹配的词也进行了飘红。百度分词技术其实这种情况就是语意结合。我们可以理解为百度把相关词表进行了关联,或者干脆进行了表结合。造成了这种情况的出现。

比如我们搜索太原,我们会发现太原与太原市都进行了飘红。

百度分词的几个精彩例子:

本文来自电脑杂谈,转载请注明本文网址:

http://www.pc-fly.com/a/jisuanjixue/article-37624-1.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值