![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 78
mikon_lee
这个作者很懒,什么都没留下…
展开
-
贝叶斯分类(上)
在cnblog上看到这篇文章写得很好。最近也在找贝叶斯分类的问题.遂仔细研究了一下.转载地址:http://www.cnblogs.com/phinecos/archive/2008/10/21/1315948.html----------------------------------------------------------------------------------------转载 2013-06-23 15:54:57 · 761 阅读 · 1 评论 -
贝叶斯分类(下)
转载地址:http://www.cnblogs.com/phinecos/archive/2008/10/21/1316044.html此篇主要介绍贝叶斯文本分类的具体实现。-------------------------------------------------------------------------------------------------------------转载 2013-06-23 16:01:10 · 497 阅读 · 0 评论 -
海量数据相似度计算之simhash和海明距离
通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集的数据以千万计算,我们如何对于这些海量千万级的数据进行高效的合并去重。最简单的做法是拿着待比较的文本转载 2013-08-26 19:33:48 · 1039 阅读 · 0 评论