python 比较两个序列的相似度,不需要分词

转载 2015年07月09日 11:03:42

code

通过Python来判断2个文字列的相似度的多少,合理使用的话就可以实现Google等搜索引擎中的 你是不是要找 的功能了。

import difflib
a=u'阿里巴巴'
b=u'阿里爸爸'
print difflib.SequenceMatcher(None,a,b).ratio()

0.75

返回的结果超过0.6就算很相似。看来目前完全人肉做近义词词典的工作有一部分可以自动化来实现了。

ref

http://pymotw.com/2/difflib/
http://jianslog.appspot.com/tag/Python
http://jianslog.appspot.com/tag/Python

序列比对:Needleman-Wunsch 算法

在比对两个序列时,不仅要考虑完全匹配的字符,还要考虑一个序列中的空格或间隙(或者,相反地,要考虑另一个序列中的插入部分)和不匹配,在序列比对中,需要找到最优的比对(最优比对大致是指要将匹配的数量最大化...
  • huanhuolang
  • huanhuolang
  • 2011年01月17日 16:04
  • 3255

[Python标准库]difflib——比较序列

[Python标准库]difflib——比较序列         作用:比较序列(特别是文本行)。         Python 版本:2.1 及以后版本         difflib 模块包含一些...
  • dapeng0802
  • dapeng0802
  • 2015年12月18日 19:50
  • 5575

python 商品名称相似度查找(difflib库和结巴分词的运用)

今天同事被告知要写一个查询商品相似度的系统,我以为事类似推荐系统一样的高大上系统,心中暗自庆幸没有被委以如此重任,不然在紧迫的时间里学习实现这套系统一定会睡眠不足的,后来同事讲解后我才知道只是一个商品...
  • u013055678
  • u013055678
  • 2016年09月29日 02:53
  • 11471

朴素的句子相似度分析

朴素的句子相似度分析
  • PKU_ZZY
  • PKU_ZZY
  • 2017年01月14日 10:43
  • 542

中文同义词词典

// 该词典来源于开源中文分词软件盘古分词 揭穿,戳穿  聪慧,聪明  葱郁,葱茏  粗暴,粗鲁  粗俗,粗鄙  粗鄙,粗俗  篡夺,夺取  懦弱,脆弱  村庄,村落  村子,村庄  存放,寄存  寄...
  • liu_zhlai
  • liu_zhlai
  • 2016年07月26日 22:28
  • 3675

哈工大同义词词林近义词计算(python、Java)

  • 2017年06月12日 20:27
  • 904KB
  • 下载

《使用Python进行自然语言处理》学习笔记四

第二章 获得文本语料和词汇资源 2.2 条件频率分布 1条件和事件 频率分布计算观察到的事件,如文本中出现的词汇。条件频率分布需要给每个时间关联一个条件,所以不是处理一个词序列,我们...
  • tiandijun
  • tiandijun
  • 2014年03月15日 19:54
  • 1722

各种相似度计算的python实现

各种相似度计算的python实现(一)前言在数据挖掘中有很多地方要计算相似度,比如聚类分析和协同过滤。计算相似度的有许多方法,其中有欧几里德距离、曼哈顿距离、Jaccard系数和皮尔逊相关度等等。我们...
  • u013393647
  • u013393647
  • 2015年07月04日 10:54
  • 8706

用python实现文件比较

越来越发现python非常适合做一些日常开发的工具。 平时,我们经常用一些比较工具,比较目录、比较两个文本文件的变化。最近发现,python的标准库里居然带了这些功能的算法。自己处理一下,就可以写出一...
  • pkrobbie
  • pkrobbie
  • 2007年06月06日 17:13
  • 16529

3.3.2 使用SequenceMatcher对象

查找最大相同序列例子:#python3.4.3 import difflib s1 = [ 1, 2, 3, 5, 6, 4 ]s2 = [ 2, 3, 5, 4, 6, 1 ] print('s1 ...
  • caimouse
  • caimouse
  • 2015年09月20日 17:41
  • 3014
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:python 比较两个序列的相似度,不需要分词
举报原因:
原因补充:

(最多只允许输入30个字)