自然语言处理
文章平均质量分 78
haobn0612
这个作者很懒,什么都没留下…
展开
-
baidu分词算法研究一
中科院软件所 张俊林 查询处理以及分词技术随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告 等;作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索转载 2007-10-19 14:53:00 · 522 阅读 · 0 评论 -
baidu分词算法研究二
pelling Checker拼写检查错误提示(以及拼音提示功能) 拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询 给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是 怎么实现这一功能的. 我们分析拼写检查系统关注以下几个问题: (1)系统如何判断用户的输入是有可能发生错误的查询呢?转载 2007-10-19 14:55:00 · 435 阅读 · 0 评论 -
baidu分词算法研究三
面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误.那么以前的分析有什么漏洞呢?我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为,从这里看好像采用 了反向最大匹配,因为正向最大匹配的结果应该是,但是由此就推论说百度采用了双向最大匹配还是太仓促了,前面转载 2007-10-19 14:56:00 · 452 阅读 · 0 评论