百度分词技术[编辑]
简介
分词技术就是搜索引擎针对用户提交查询的关键串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。
分词的原理
对于等于或小于三个字符的,百度不做切割;而对于三个字符以上的,则会按照以下方向进行切割。
1.字符串匹配的分词方法
①、正向最大匹配法 :把一个词从左至右来分词。
如:“工地方向导”
采用正向最大匹配法是 “工地、方向、导”。
②、反向最大匹配法:把一个词从右至左来分词 。
如:“工地方向导”
采用反向匹配法是: “工、地方、向导”
③、采用最短路径分词法:就是说一段话里面要求切出的词数是最少的。
正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。
2.词义分词法
一种机器语音判断的分词方法,进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词。
这种分词方法,现在还不成熟,处在测试阶段。
3.统计分词法
根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就很重要。就可以作为用户提供字符串中的分隔符,这样来分词。
比如,“我的,你的,许多的,这里,这一,那里”等等,这些词出现的比较多,就从这些词里面分开来。
总结:
①、百度采用的分词技术大多为正向匹配法。
②、全字匹配得到的词的权重会高于分开的词的权重。
③、根据搜索量切词,搜索量大的分词的权重比字符匹配的权重要高
④、人名和地面优先匹配
⑤、使用双向最大匹配。
参考资料:
扩展阅读:
相关词条:
合作编辑:
分享到:
更多
网络营销词典内容均由网友提供,仅供参考。如发现词条内容有问题,请发邮件至info # wm23.com。