Python编程：通过交集并集计算文档相似度

最新推荐文章于 2019-03-25 16:06:51 发布

彭世瑜

最新推荐文章于 2019-03-25 16:06:51 发布

阅读量1.2k

点赞数 1

分类专栏： Python

本文为博主原创文章，欢迎转载，请注明出处

本文链接：https://blog.csdn.net/mouday/article/details/87921672

版权

Python 专栏收录该内容

609 篇文章 34 订阅

订阅专栏

分词函数

def split_word(document):
    """
    分词，去除停用词
    """
    stop_words = {":", "的", "，", "”"}

    text = []
    for word in jieba.cut(document):
        if word not in stop_words:
            text.append(word)
    return text

通过交集并集计算文档相似度


from itertools import combinations
    
documents = [
    "窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境",
    "IBM的区块链副总裁JesseLund:比特币将达到100万美元",
    "窝趣公寓完成近2亿元B轮融资"
]

# 计算两两组合的相似度
for doc1, doc2 in combinations(documents, 2):
    words1 = split_word(doc1)
    words2 = split_word(doc2)

    words1_set = set(words1)
    words2_set = set(words2)

    similar12 = len(words1_set & words2_set) / len(words1_set | words2_set)
    print("{:.2f}".format(similar12), doc1, doc2)

计算结果

0.00 窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境 IBM的区块链副总裁JesseLund:比特币将达到100万美元
0.53 窝趣公寓完成近2亿元B轮融资主打品质和轻松社交的居住环境 窝趣公寓完成近2亿元B轮融资
0.00 IBM的区块链副总裁JesseLund:比特币将达到100万美元 窝趣公寓完成近2亿元B轮融资

彭世瑜

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python编程：通过交集并集计算文档相似度

分词函数def split_word(document): """ 分词，去除停用词 """ stop_words = {":", "的", "，", "”"} text = [] for word in jieba.cut(document): if word not in stop_words:
复制链接

扫一扫