数据挖掘
EchoShelter
怕什么真理无穷,进一寸有一寸的欢喜!
展开
-
Jaccard系数与Jaccard距离
Jaccard(杰卡德)系数主要用于计算样本间的相似度。Jaccard系数的计算方式为:样本交集个数和样本并集个数的比值,用J(A,B)表示。公式为: jaccard系数相反的即为jaccard距离,用两个集合中不同元素所占元素的比例来衡量两个样本之间的相似度,公式为: Jaccard系数主要的应用的场景有 1.过滤相似度很高的新闻,或者网页去重 2.考试防作弊系统 3.论文查重...原创 2018-04-08 17:45:09 · 20075 阅读 · 2 评论 -
Stanford 中文分词
参考blog:https://blog.csdn.net/lightty/article/details/51766602 1.http://nlp.stanford.edu/software/segmenter.shtml 2.https://github.com/jiekechoo/NLPStudy 3.http://blog.csdn.net/shijiebei2...转载 2018-04-01 12:33:11 · 1086 阅读 · 0 评论