自然语言处理
沈华65536
山东大学计算机专业本科生
展开
-
TF_IDF:自动提取关键词
简介 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预。 一个容易想到的思路,就是找到出现次数最多的词。如果某个词很重要,它应该在这篇文章中多次出现。于是,我们进行”词频”(Term Frequency,缩写为TF)统计。 设计流程 结果你肯定猜到了,出现次数最多的词是”的”、”是”、”在”—-这一类最常用...原创 2018-09-03 14:15:19 · 261 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用:找出相似文章
为了找出相似的文章,需要用到”余弦相似性”(cosine similiarity)。下面,我举一个例子来说明,什么是”余弦相似性”。 如果两句话用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度。 1. 分词 2. 列出所有的词 3. 计算词频 4. 写出词频向量 到这里,问题就变成了计算这两个向量的相似程度。可以通过夹角的大小,来判断向量的相似程度 cos...原创 2018-09-03 14:32:45 · 185 阅读 · 0 评论 -
TF-IDF自动摘要
文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。”自动摘要”就是要找出那些包含信息最多的句子。 句子的信息量用”关键词”来衡量。如果包含的关键词越多,就说明这个句子越重要。Luhn提出用”簇”(cluster)表示关键词的聚集。所谓”簇”就是包含多个关键词的句子片段。 只要关键词之间的距离小于”门槛值”,它们就被认为处于同一个簇之中。Luhn建议的门槛值是4或5。也就是说...原创 2018-09-03 14:57:44 · 951 阅读 · 0 评论