10. 搜索引擎
文章平均质量分 90
玄苦大师233
机会往往是长期准备和酝酿的而不能只靠一时的主动与激情所以认真写好技术博客吧
新博客 =》https://chenguolin.github.io/
展开
-
搜索引擎-倒排索引
文章转载自: http://blog.csdn.net/hguisu/article/details/79623501.单词——文档矩阵 单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型,图3-1展示了其含义。图3-1的每列代表一个文档,每行代表一个单词,打对勾的位置代表包含关系。转载 2014-12-15 19:40:26 · 996 阅读 · 0 评论 -
simhash算法原理及实现
simhash是google用来处理海量文本去重的算法。 google出品,你懂的。 simhash最牛逼的一点就是将一个文档,最后转换成一个64位的字节,暂且称之为特征字,然后判断重复只需要判断他们的特征字的距离是不是原理simhash值的生成图解如下大概花三分钟看懂这个图就差不多怎么实现这个simhash算法了。特别简单。谷歌出品嘛,简单实用。算法过程大概如下:将Doc进行关键词抽取(其中包括转载 2016-03-08 22:02:48 · 8230 阅读 · 1 评论 -
Matrix67:漫话中文分词算法
文章转载自:我爱自然语言处理 记得第一次了解中文分词算法是在Google 黑板报上看到的,当初看到那个算法时我彻底被震撼住了,想不到一个看似不可能完成的任务竟然有如此神奇巧妙的算法。最近在詹卫东老师的《中文信息处理导论》课上 再次学到中文分词算法,才知道这并不是中文分词算法研究的全部,前前后后还有很多故事可讲。在没有建立统计语言模型时,人们还在语言学的角度对自动分词进 行研究,...转载 2016-05-24 15:14:45 · 2255 阅读 · 0 评论 -
"结巴"中文分词
1. 结巴中文分词 结巴分词是国内程序员用开发的一个中文分词模块, 源码已托管在github, https://github.com/fxsjy/jieba 2. 结巴分词算法: a. 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) b. 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 ...原创 2016-05-24 22:54:08 · 4274 阅读 · 0 评论 -
中文分词之HMM模型详解
文章转载自: http://yanyiwu.com/work/2014/04/07/hmm-segment-xiangjie.html HMM(Hidden Markov Model): 隐式马尔科夫模型。 HMM模型可以应用在很多领域,所以它的模型参数描述一般都比较抽象,以下篇幅针对HMM的模型参数介绍直接使用它在中文分词中的实际含义来讲: HMM的典型介绍就是这个模型是一个五元组: S...转载 2016-06-15 00:18:40 · 2881 阅读 · 0 评论