- 博客(5)
- 资源 (3)
- 收藏
- 关注
转载 自然语言处理中句子相似度计算的几种方法
在做自然语言处理的过程中,我们经常会遇到需要找出相似语句的场景,或者找出句子的近似表达,这时候我们就需要把类似的句子归到一起,这里面就涉及到句子相似度计算的问题,那么本节就来了解一下怎么样来用 Python 实现句子相似度的计算。基本方法句子相似度计算我们一共归类了以下几种方法:编辑距离计算 杰卡德系数计算 TF 计算 TFIDF 计算 Word2Vec 计算下面我们来一一了...
2018-09-13 15:50:17 5402
转载 TF-IDF与余弦相似性的应用(二):找出相似文章
上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。 句子...
2018-09-13 15:40:49 180
转载 TF-IDF与余弦相似性的应用(一):自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通人只用10分...
2018-09-13 15:40:03 229
原创 高等工程数学(二):基变换与坐标变换
证明一个矩阵可逆的方法有5种;(1)看这个矩阵的行列式值是否为0,若不为0,则可逆;(2)看这个矩阵的秩是否为n,若为n,则矩阵可逆;(3)定义法:若存在一个矩阵B,使矩阵A使得AB=BA=E,则矩阵A可逆,且B是A的逆矩阵;(4)对于齐次线性方程AX=0,若方程只有零解,那么这个矩阵可逆,反之若有无穷解则矩阵不可逆;(5)对于非齐次线性方程AX=b,若方程只有特解,那...
2018-09-07 21:46:20 2819
原创 高等工程数学(一):线性空间
定义1.0 数域如果复数的一个非空集合 P 含有非零的数,且其中任意两数的和、差、积、商(除数不为零)仍属于该集合,则称数集 P 为一个数域 .复数 a + bi ; i2 = -1注意:所有的数域都包含有理数域,且都包含整数 0 和 1每个数的否(逆)也在同一数域中 定义1.1 线性空间设V是一个非空集合,P是一个数域。如果满足以下三个条件:加法运算封...
2018-09-07 20:04:41 2548 2
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人