自然语言处理
mao_mao37
这个作者很懒,什么都没留下…
展开
-
【转】运用jieba库分词
一、jieba库基本介绍1、jieba库概述 jieba是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语 -jieba是优秀的中文分词第三方库,需要额外安装 -jieba库提供三种分词模式,最简单只需掌握一个函数 2、jieba分词的原理 Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间的关联概率 -汉字间概率大的组成...转载 2020-08-03 14:28:59 · 2095 阅读 · 0 评论 -
【转】余弦相似度及基于python的三种代码实现、与欧氏距离的区别
1.余弦相似度可用来计算两个向量的相似程度对于如何计算两个向量的相似程度问题,可以把这它们想象成空间中的两条线段,都是从原点([0, 0, ...])出发,指向不同的方向。两条线段之间形成一个夹角,如果夹角为0度,意味着方向相同、线段重合;如果夹角为90度,意味着形成直角,方向完全不相似;如果夹角为180度,意味着方向正好相反。因此,我们可以通过夹角的大小,来判断向量的相似程度。夹角越小,就代表越相似。以二维空间为例,上图的a和b是两个向量,我们要计算它们的夹角θ。余弦定理告诉我们,可以用.转载 2020-08-03 14:25:04 · 1289 阅读 · 0 评论 -
[转]余弦cos计算相似度
余弦计算相似度度量相似度度量(Similarity),即计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,相似度的值越大说明个体差异越大。对于多个不同的文本或者短文本对话消息要来计算他们之间的相似度如何,一个好的做法就是将这些文本中词语,映射到向量空间,形成文本中文字和向量数据的映射关系,通过计算几个或者多个不同的向量的差异的大小,来计算文本的相似度。下面介绍一个详细成熟的向量空间余弦相似度方法计算相似度向量空间余弦相似度(Cosine Similarity)余弦相似度用向量空转载 2020-08-03 14:23:45 · 1966 阅读 · 0 评论