自然语言处理
文章平均质量分 70
lijieshare
这个作者很懒,什么都没留下…
展开
-
文本相似度之Levenshtein算法
levenshtein() 函数返回两个字符串之间的 Levenshtein 距离。 Levenshtein算法是计算两个字符串之间的最小编辑距离的算法,所谓的最小编辑距离就是把字符串A通过添加,删除,替换字符的方式转变成B所需要的最少步骤。俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念,所以叫做Levenshtein算法。 Levenshtein ...2016-12-28 22:03:45 · 243 阅读 · 0 评论 -
【TF-IDF介绍】
TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术, TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(I...2017-03-14 20:16:57 · 299 阅读 · 0 评论 -
【自然语言处理介绍】
自然语言处理(natural language processing 简称NLP) 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处...2017-03-12 16:17:03 · 177 阅读 · 0 评论 -
【基于用户的协同过滤(UserCF)】
基于用户的协同过滤通过不同用户对物品的评分来评测用户之间的相似性,基于用户的相似性做推荐,简单的讲:给用户推荐和他兴趣相投的其他用户喜欢的物品 算法核心思想:在一个在线推荐系统中,当用户A需要个性化推荐时,可以先找到和他有相似兴趣的其它用户,然后把那些用户喜欢的、而用户A没有听说过的物品推荐给A,这种方法称为基于用户的协同过滤算法。 ==>可以看出,这个算法主要包括两步:...2018-01-20 22:16:24 · 213 阅读 · 0 评论 -
【蚁群算法】
蚁群算法的基本思想来源于自然界蚂蚁觅食的最短路径原理,根据昆虫科学家的观察,发现自然界的蚂蚁虽然视觉不发达,但它们可以在没有任何提示的情况下找到从食物源到巢穴的最短路径,并在周围环境发生变化后,自适应地搜索新的最佳路径。 蚂蚁在寻找食物源的时候,能在其走过的路径上释放一种叫信息素的激素,使一定范围内的其他蚂蚁能够察觉到。当一些路径上通过的蚂蚁越来越多时,信息素也就越来越多,蚂蚁们选择这条...2018-01-20 22:15:37 · 552 阅读 · 0 评论 -
【K近邻算法介绍】
目前常用的分类算法主要有:朴素贝叶斯分类算法(Naïve Bayes)、支持向量机分类算法(Support Vector Machines)、 KNN最近邻算法(k-Nearest Neighbors)、神经网络算法(NNet)以及决策树(Decision Tree)等等 K Nearest Neighbor算法又叫KNN算法,这个算法是机器学习里面一个比较经典的算法, 总体来说KNN...2017-07-29 16:50:57 · 120 阅读 · 0 评论 -
JAVA代码之余弦相似度
一、余弦相似度步骤永久链接: http://gaojingsong.iteye.com/blog/2348114余弦相似度基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。第一步,预处理主要是进行中文分词和去停用词,分词。第二步,列出所有的词。第三步,计算词频。第四步,写出词频向量。 二、余弦相似度代码如下...2017-01-03 21:01:15 · 290 阅读 · 0 评论 -
文本相似度余弦相似度算法原理
余弦相似度基本思路是:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。第一步,预处理主要是进行中文分词和去停用词,分词。第二步,列出所有的词。第三步,计算词频。第四步,写出词频向量。 余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。余弦相似度缺陷这类算法没有很好地解决文本数据中存在的自然...2016-12-29 22:35:02 · 1608 阅读 · 0 评论 -
文本相似度Levenshtein算法原理(转载)
Levenshtein算法原理1) str1或str2的长度为0返回另一个字符串的长度。 if(str1.length==0) return str2.length; if(str2.length==0) return str1.length;2)初始化(n+1)*(m+1)的矩阵d,并让第一行和列的值从0开始增长。3)扫描两字符串(n*m级的),如果:str1 == str2[j]...2016-12-28 22:11:10 · 349 阅读 · 0 评论 -
【自然语言之分类处理】
最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(Naive Bayesian Model,NBM)。朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点都不夸张,只是我们没有意识到罢了。例如,当你看到一个陌生人,你的脑子下意识判断TA是男是女;你可能经常会走在路...2017-03-14 20:45:56 · 234 阅读 · 0 评论