- 博客(4)
- 资源 (4)
- 收藏
- 关注
转载 baidu分词算法研究三
面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误.那么以前的分析有什么漏洞呢?我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为,从这里看好像采用 了反向最大匹配,因为正向最大匹配的结果应该是,但是由此就推论说百度采用了双向最大匹配还是太仓促了,前面
2007-10-19 14:56:00 421
转载 baidu分词算法研究二
pelling Checker拼写检查错误提示(以及拼音提示功能) 拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询 给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是 怎么实现这一功能的. 我们分析拼写检查系统关注以下几个问题: (1)系统如何判断用户的输入是有可能发生错误的查询呢?
2007-10-19 14:55:00 426
转载 baidu分词算法研究一
中科院软件所 张俊林 查询处理以及分词技术随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告 等;作为 普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。 搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索
2007-10-19 14:53:00 513
转载 【转载】使用memcached进行内存缓存
旧文重发2005.8.9通常的网页缓存方式有动态缓存和静态缓存等几种,在ASP.NET中已经可以实现对页面局部进行缓存,而使用memcached的缓存比ASP.NET的局部缓存更加灵活,可以缓存任意的对象,不管是否在页面上输出。而memcached最大的优点是可以分布式的部署,这对于大规模应用来说也是必不可少的要求。LiveJournal.com使用了memcached在前端进行缓存,取
2007-10-06 10:58:00 394
故障树手册(Fault Tree Handbook)
2009-12-07
Thing in Java\Thinking in Java 3rd Edition英文版,书后答案及代码
2007-07-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人