python判定三国演义和水浒传风格相似性（三种算法展示）

死磕的斯坦张

于 2021-09-29 17:41:03 发布

阅读量425

点赞数

分类专栏： Python 文章标签： python 算法爬虫

本文链接：https://blog.csdn.net/david2000999/article/details/120552748

版权

Python 专栏收录该内容

25 篇文章 8 订阅

订阅专栏

1. jaccard算法求文本的相似度

# -*- coding: utf-8 -*-

# 正则包
import re
# 自然语言处理包
import jieba
import jieba.analyse
# html 包
import html

from numpy import *
from zhon import *


class JaccardSimilarity(object):
    """
    jaccard相似度
    """
    def __init__(self, content_x1, content_y2):
        self.s1 = content_x1
        self.s2 = content_y2

    @staticmethod
    def extract_keyword(content):  # 提取关键词
        # 正则过滤 html 标签
        #re_exp = re.compile(r'(<style>.*?</style>)|(<[^>]+>)', re.S)
        punctuation = """！？｡＂＃＄％＆＇()＊＋－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""
        line = "！？｡＂＃＄％＆＇()＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏."
        content = re.sub("[{}]+".format(punctuation), " ", content.decode("utf-8"))
        #content = re.sub(ur"\p{P}+",' ', content)
        # html 转义符实体化
        content = html.unescape(content)
        # 切割
        seg = [i for i in jieba.cut(content, cut_all=True) if i != '']
        # 提取关键词
        keywords = jieba.analyse.extract_tags("|".join(seg), topK=200, withWeight=False)
        return keywords

    def main(self):
        # 去除停用词
        jieba.analyse.set_stop_words('./ds.txt')

        # 分词与关键词提取
        keywords_x = self.extract_keyword(self.s1)
        keywords_y = self.extract_keyword(self.s2)
        with open('./keywords1.txt', 'w') as k1, open('./keywords2.txt', 'w') as k2:
            k1.write(str(keywords_x))
            k1.close()
            k2.write(str(keywords_y))
            k2.close()

        # jaccard相似度计算
        intersection = len(list(set(keywords_x).intersection(set(keywords_y))))
        union = len(list(set(keywords_x).union(set(keywords_y))))
        # 除零处理
        sim = float(intersection)/union if union != 0 else 0
        return sim


# 测试
if __name__ == '__main__':
    with open('./三国演义.txt', "rb") as x, open('./水浒传.txt', 'rb') as y:
        content_x = x.read()
        content_y = y.read()
        similarity = JaccardSimilarity(content_x, content_y)
        #similarity = similarity.decode('UTF-8')
        similarity = similarity.main()

        print('相似度: %.2f%%' % (similarity*100))

在这里插入图片描述

2. CosineSimilarity算法求文本间相似度

# -*- coding: utf-8 -*-

# 正则包
import re
# html 包
import html
# 自然语言处理包
import jieba
import jieba.analyse
# 机器学习包
from sklearn.metrics.pairwise import cosine_similarity


class CosineSimilarity(object):
    """
    余弦相似度
    """
    def __init__(self, content_x1, content_y2):
        self.s1 = content_x1
        self.s2 = content_y2

    @staticmethod
    def extract_keyword(content):  # 提取关键词
        # 正则过滤 html 标签
        #re_exp = re.compile(r'(<style>.*?</style>)|(<[^>]+>)', re.S)
        #content = re_exp.sub(' ', content)
        punctuation = """！？｡＂＃＄％＆＇()＊＋－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""
        line = "！？｡＂＃＄％＆＇()＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏."
        content = re.sub("[{}]+".format(punctuation), " ", content.decode("utf-8"))
        # html 转义符实体化
        content = html.unescape(content)
        # 切割
        seg = [i for i in jieba.cut(content, cut_all=True) if i != '']
        # 提取关键词
        keywords = jieba.analyse.extract_tags("|".join(seg), topK=200, withWeight=False)
        return keywords

    @staticmethod
    def one_hot(word_dict, keywords):  # oneHot编码
        # cut_code = [word_dict[word] for word in keywords]
        cut_code = [0]*len(word_dict)
        for word in keywords:
            cut_code[word_dict[word]] += 1
        return cut_code

    def main(self):
        # 去除停用词
        jieba.analyse.set_stop_words('./ds.txt')

        # 提取关键词
        keywords1 = self.extract_keyword(self.s1)
        keywords2 = self.extract_keyword(self.s2)
        # 词的并集
        union = set(keywords1).union(set(keywords2))
        # 编码
        word_dict = {}
        i = 0
        for word in union:
            word_dict[word] = i
            i += 1
        # oneHot编码
        s1_cut_code = self.one_hot(word_dict, keywords1)
        s2_cut_code = self.one_hot(word_dict, keywords2)
        # 余弦相似度计算
        sample = [s1_cut_code, s2_cut_code]
        # 除零处理
        try:
            sim = cosine_similarity(sample)
            return sim[1][0]
        except Exception as e:
            print(e)
            return 0.0


# 测试
if __name__ == '__main__':
    with open('./三国演义.txt', "rb") as x, open('./水浒传.txt', 'rb') as y:
        content_x = x.read()
        content_y = y.read()
        similarity = CosineSimilarity(content_x, content_y)
        similarity = similarity.main()
        print('相似度: %.2f%%' % (similarity*100))

在这里插入图片描述

3. MinHash算法求相似度

# -*- coding: utf-8 -*-

# 正则包
import re
# 自然语言处理包
import jieba
import jieba.analyse
# html 包
import html
# 数据集处理包
from datasketch import MinHash


class MinHashSimilarity(object):
    """
    MinHash
    """
    def __init__(self, content_x1, content_y2):
        self.s1 = content_x1
        self.s2 = content_y2

    @staticmethod
    def extract_keyword(content):  # 提取关键词
        # 正则过滤 html 标签
        punctuation = """！？｡＂＃＄％＆＇()＊＋－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏"""
        line = "！？｡＂＃＄％＆＇()＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘'‛“”„‟…‧﹏."
        content = re.sub("[{}]+".format(punctuation), " ", content.decode("utf-8"))
        # html 转义符实体化
        content = html.unescape(content)
        # 切割
        seg = [i for i in jieba.cut(content, cut_all=True) if i != '']
        # 提取关键词
        keywords = jieba.analyse.extract_tags("|".join(seg), topK=200, withWeight=False)
        return keywords

    def main(self):
        # 去除停用词
        jieba.analyse.set_stop_words('./ds.txt')

        # MinHash计算
        m1, m2 = MinHash(), MinHash()
        # 提取关键词
        s1 = self.extract_keyword(self.s1)
        s2 = self.extract_keyword(self.s2)

        for data in s1:
            m1.update(data.encode('utf8'))
        for data in s2:
            m2.update(data.encode('utf8'))

        return m1.jaccard(m2)


# 测试
if __name__ == '__main__':
    with open('./三国演义.txt', "rb") as x, open('./水浒传.txt', 'rb') as y:
        content_x = x.read()
        content_y = y.read()
        similarity = MinHashSimilarity(content_x, content_y)
        similarity = similarity.main()
        print('相似度: %.2f%%' % (similarity*100))

在这里插入图片描述

总结

余弦相似度

计算复杂度偏高。

相关研究中，基于物品协同过滤系统的相似性度量方法普遍使用余弦相似性。然而，在许多实际应用中,数据稀疏度过高，通过余弦相似度计算会产生误导性结果。

jaccard相似度

在产品描述中，很多运营人员为了偷懒，喜欢复制粘贴稍作修改，造成产品描述重复度高。通过提取产品描述的关键词，再计算两组关键词的交集并集非常适合在此场景下检测产品描述的重复度，即杰卡德相似度。

MinHash

在大数据集中求杰尔德相似度的解决方案，通过对数据文本的降维，大大提高计算速度。

参考资料

文本相似度算法的对比及python实现
https://blog.csdn.net/qq_42280510/article/details/102857696

死磕的斯坦张

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
python判定三国演义和水浒传风格相似性（三种算法展示）

1. jaccard算法求文本的相似度# -*- coding: utf-8 -*-# 正则包import re# 自然语言处理包import jiebaimport jieba.analyse# html 包import htmlfrom numpy import *from zhon import *class JaccardSimilarity(object): """ jaccard相似度 """ def __init__(self, c
复制链接

扫一扫

专栏目录