![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法
窝头就辣椒
程序猿
展开
-
TF-IDF与余弦相似性的应用(一):自动提取关键词(转)
作者: 阮一峰日期: 2013年3月15日 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相...转载 2018-08-31 16:14:56 · 130 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章(转)
作者: 阮一峰日期: 2013年3月21日上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。...转载 2018-08-31 16:17:13 · 129 阅读 · 0 评论 -
算法中常用的几个统计指标,方差,标准差等(简单理解)
定义:1、方差方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中,方差(英文Variance)用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着很重要的意义。2、标准差方差开根号。3、协方差在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。可...原创 2018-12-25 12:15:22 · 9608 阅读 · 0 评论