python 比较两个序列的相似度,不需要分词

转载 2015年07月09日 11:03:42

code

通过Python来判断2个文字列的相似度的多少,合理使用的话就可以实现Google等搜索引擎中的 你是不是要找 的功能了。

import difflib
a=u'阿里巴巴'
b=u'阿里爸爸'
print difflib.SequenceMatcher(None,a,b).ratio()

0.75

返回的结果超过0.6就算很相似。看来目前完全人肉做近义词词典的工作有一部分可以自动化来实现了。

ref

http://pymotw.com/2/difflib/
http://jianslog.appspot.com/tag/Python
http://jianslog.appspot.com/tag/Python

相关文章推荐

序列比对:Needleman-Wunsch 算法

在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,在序列比对中,需要找到最优的比对(最优比对大致是指要将匹配的数量最大化...

[Python标准库]difflib——比较序列

[Python标准库]difflib——比较序列         作用:比较序列(特别是文本行)。         Python 版本:2.1 及以后版本         difflib 模块包含一些...

各种相似度计算的python实现

各种相似度计算的python实现(一)前言在数据挖掘中有很多地方要计算相似度,比如聚类分析和协同过滤。计算相似度的有许多方法,其中有欧几里德距离、曼哈顿距离、Jaccard系数和皮尔逊相关度等等。我们...

python实现机器学习中的各种距离计算及文本相似度算法

import numpy as np import math# 依赖包numpy、python-Levenshtein、scipy def Euclidean(vec1, vec2): npv...

Python 文本挖掘:使用gensim进行文本相似度计算

在文本处理中,比如商品评论挖掘,有时需要了解每个评论分别和商品的描述之间的相似度,以此衡量评论的客观性。 评论和商品描述的相似度越高,说明评论的用语比较官方,不带太多感情色彩,比较注重描述商品的...

Delphi7高级应用开发随书源码

  • 2003年04月30日 00:00
  • 676KB
  • 下载

中文同义词词典

// 该词典来源于开源中文分词软件盘古分词 揭穿,戳穿  聪慧,聪明  葱郁,葱茏  粗暴,粗鲁  粗俗,粗鄙  粗鄙,粗俗  篡夺,夺取  懦弱,脆弱  村庄,村落  村子,村庄  存放,寄存  寄...

《使用Python进行自然语言处理》学习笔记四

第二章 获得文本语料和词汇资源 2.2 条件频率分布 1条件和事件 频率分布计算观察到的事件,如文本中出现的词汇。条件频率分布需要给每个时间关联一个条件,所以不是处理一个词序列,我们...

python 比较单词的相似度

资源来自:python search technology: word similarity 主要是python的两个库: 1、python-Levenshtein 2、...

如何求两个序列的相似度

两个字符串/数组(不等长)的距离,怎么算?
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:python 比较两个序列的相似度,不需要分词
举报原因:
原因补充:

(最多只允许输入30个字)