gensim在“中文查找(关键词)“与“txt文本“之间做相似度计算(返回最相似的文本)

最新推荐文章于 2024-02-27 02:55:06 发布

微电子学与固体电子学-俞驰

最新推荐文章于 2024-02-27 02:55:06 发布

阅读量904

点赞数

分类专栏： Python自然语言处理

本文链接：https://blog.csdn.net/appleyuchi/article/details/78063333

版权

Python自然语言处理专栏收录该内容

60 篇文章 0 订阅

订阅专栏

本文目的

搜索关键词，返回最相关的txt文本内容(模仿搜索引擎)

网上的例子都是一个list里面放入几句话,然后输入关键词去计算相似度.

无法在实际中应用,例如

http://blog.csdn.net/appleyuchi/article/details/78062721

下面改进了下,

下面改为输入一句话,不是去list中查找,而是去文件夹中查找,这样就有一个搜索引擎的雏形

下面代码在python2.7,linux下运行,运行时,修改path以及question即可

path代表存放一大堆txt文件的文件夹的路径

下面代码实现question与这些txt文件做相似度计算的功能.

运行环境

组件	版本
Ubuntu	18.10
python	2.7.12

运行方法

①mkdir train
②mkdir train_corpus_seg
③解压tc-corpus-train.zip到train文件夹中

注:

解压后会有一大堆文件夹，为了运行调试方便的目的，可以删除其余文件夹，只留两个文件夹即可,

每个文件夹表示一个大类。

④python corpus_segment.py
⑤python top.py

数据集采用复旦大学的新闻数据集tc-corpus-train.zip

下载链接是:

链接: https://pan.baidu.com/s/1hAxkar56UM6U_Eo8vm0rOA 密码: mpqd

实验大意

附录代码中设置搜索关键词question:“邹家华矿产”(模仿搜索引擎中输入关键词)

返回与关键词最相关的一篇文章内容。(模仿搜索引擎返回最相关的网页)

附录代码中有三个模型，每个模型都返回了最匹配的文章的序号。

第一个模型额外增加代码get_article，返回了"最匹配的文章的序号"对应的"具体的内容"

其他两个模型仅仅返回最相关的文章的序号，不返回内容(若要返回文章内容可以模仿第一个模型的例子来添加)

实验运行结果

-------------------下面是tfidf模型(第1个提问)----------------------------------------------------
Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 0.545 seconds.
Prefix dict has been built succesfully.
[(1, 0.3586881756782532), (18, 0.28805285692214966), (15, 0.2172296941280365), (13, 0.20284029841423035), (21, 0.06617657840251923)]
搜索得到最匹配的文章是: 【日期】 19960404 【版号】 2 【标题】全国矿产资源委员会成立邹家华提出全面加强矿产资源管理【作者】朱幼棣【正文】据新华社北京４月３日电（记者朱幼棣）全国矿产资源委员会第一次会议今天召开，国务院副总理、全国资源委主任邹家华说，国务院决定成立全国矿产资源委员会，取代原来的全国矿产储量委员会，这是国务院为了全面加强矿产资源管理的一项重要措施，是我国矿产资源管理体制上的一项重要改革。邹家华说，国务院十分重视作为国民经济发展的基础产业矿产资源工作。我国矿产资源管理体制，随着国家经济的发展和历史演变，发生了许多变化，总的来说也是不断适应生产力的发展，也因此大大推进了国民经济的发展。但从当前实践中看，矿产资源管理体制不能进一步适应生产力发展的需要，没有能够按照宪法的要求，真正体现中央政府的集中、统一和有效的管理，不能在维护矿产资源国家所有的权益，合理规划利用资源，加强政策调控等方面发挥应有的作用，还存在着多头管理、地方保护和部门分割的状况。为此，从我国国情出发，需要一个高层次的议事协调机构，不仅是对全国矿产储量的确认，而且是在全国范围内，统筹矿产资源勘查、开发、利用、保护与管理方面的政策和方针，协调各部门和各大公司的工作，共同努力办一些大事、实事，解决一些重大问题。邹家华说，党的十四届五中全会《建议》和八届人大四次会议批准的《纲要》，对加强自然资源保护、环境、生态保护也提出了目标、工作重点和政策措施。这充分显示了党中央、国务院对资源管理工作的高度关心、重视和支持，也表明了资源管理工作责任更重大、任务更艰巨。对今后矿产资源保护管理的重要性与紧迫性，各部门、各级地方政府都要从战略高度深刻认识。全国矿产资源委员会的主要任务是研究矿产资源政策，酝酿一个时期内资源开发与保护的行动计划和重大项目，协调各部门和地方的关系。矿产资源委员会要承担起维护矿产资源国家所有、促进矿产资源的开发与保护、实现可持续发展的历史使命。邹家华提出，今后资源委员会要紧紧围绕《建议》和《纲要》的目标，开拓新体制、探索新政策、制定新战略，做好工作，一是促进资源管理新体制的建立，建设统一、协调、高效、权威的中央统一管理与授权地方管理相结合的资源管理体系；二是促进地质勘查和矿业的健康发展，为国民经济与社会发展提供必要的资源保障，努力达到资源供需平衡；三是通过实施可持续发展战略与科教兴国战略，最大限度地合理开发利用矿产资源，提高资源的综合利用水平，保护生态环境；四是促进矿产资源法制建设，推动矿产资源开发与管理的整体水平上一个新台阶。国务院副秘书长周正庆宣读了《国务院办公厅关于将全国矿产储量委员会更名为全国矿产资源委员会及组成人员的通知》。
-------------------下面是tfidf模型(第2个提问)----------------------------------------------------
[(1, 0.3586881756782532), (18, 0.28805285692214966), (15, 0.2172296941280365)]
-------------------下面是LSI模型-----------------------------------
[(1, 0.948716402053833), (13, 0.8921045064926147)]

参考文献

Reference:
[1]https://blog.csdn.net/github_36326955/article/details/54891204
[2]https://blog.csdn.net/u011630575/article/details/80159298

附录

corpus_segment.py

#!/usr/bin/env python  
# -*- coding: UTF-8 -*-  
""" 
@version: python2.7.8  
@author: XiangguoSun 
@contact: sunxiangguodut@qq.com 
@file: corpus_segment.py 
@time: 2017/2/5 15:28 
@software: PyCharm 
"""  
import sys  
import os  
import jieba  
# 配置utf-8输出环境  
reload(sys)  
sys.setdefaultencoding('utf-8')  
# 保存至文件  
def savefile(savepath, content):  
    with open(savepath, "wb") as fp:  
        fp.write(content)  
    ''''' 
    上面两行是python2.6以上版本增加的语法，省略了繁琐的文件close和try操作 
    2.5版本需要from __future__ import with_statement 
    新手可以参考这个链接来学习http://zhoutall.com/archives/325 
    '''  
# 读取文件  
def readfile(path):  
    with open(path, "rb") as fp:  
        content = fp.read()  
    return content  
  
def corpus_segment(corpus_path, seg_path):  
    ''''' 
    corpus_path是未分词语料库路径 
    seg_path是分词后语料库存储路径 
    '''  
    catelist = os.listdir(corpus_path)  # 获取corpus_path下的所有子目录  
    ''''' 
    其中子目录的名字就是类别名，例如： 
    train_corpus/art/21.txt中，'train_corpus/'是corpus_path，'art'是catelist中的一个成员 
    '''  
  
    # 获取每个目录（类别）下所有的文件  
    for mydir in catelist:  
        ''''' 
        这里mydir就是train_corpus/art/21.txt中的art（即catelist中的一个类别） 
        '''  
        class_path = corpus_path + mydir + "/"  # 拼出分类子目录的路径如：train_corpus/art/  
        seg_dir = seg_path + mydir + "/"  # 拼出分词后存贮的对应目录路径如：train_corpus_seg/art/  
  
        if not os.path.exists(seg_dir):  # 是否存在分词目录，如果没有则创建该目录  
            os.makedirs(seg_dir)  
  
        file_list = os.listdir(class_path)  # 获取未分词语料库中某一类别中的所有文本  
        ''''' 
        train_corpus/art/中的 
        21.txt, 
        22.txt, 
        23.txt 
        ... 
        file_list=['21.txt','22.txt',...] 
        '''  
        for file_path in file_list:  # 遍历类别目录下的所有文件  
            fullname = class_path + file_path  # 拼出文件名全路径如：train_corpus/art/21.txt  
            content = readfile(fullname)  # 读取文件内容  
            '''''此时，content里面存贮的是原文本的所有字符，例如多余的空格、空行、回车等等， 
            接下来，我们需要把这些无关痛痒的字符统统去掉，变成只有标点符号做间隔的紧凑的文本内容 
            '''  
            content = content.replace("\r\n", "")  # 删除换行  
            content = content.replace(" ", "")#删除空行、多余的空格  
            content_seg = jieba.cut(content)  # 为文件内容分词  
            savefile(seg_dir + file_path, " ".join(content_seg))  # 将处理后的文件保存到分词后语料目录  
  
    print "中文语料分词结束！！！"  
  

if __name__=="__main__":  
    #对训练集进行分词  
    corpus_path = "./train/"  # 未分词分类语料库路径  
    seg_path = "./train_corpus_seg/"  # 分词后分类语料库路径,本程序输出结果  
    corpus_segment(corpus_path,seg_path)  
  
    # #对测试集进行分词  
    # corpus_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/answer/"  # 未分词分类语料库路径  
    # seg_path = "/home/appleyuchi/PycharmProjects/MultiNB/csdn_blog/54891204_tenwhy/chinese_text_classification-master/test_corpus_seg/"  # 分词后分类语料库路径，本程序输出结果  
    # corpus_segment(corpus_path,seg_path)

top.py

# #-*- coding:utf-8 -*-
# import sys
# reload(sys)
# sys.setdefaultencoding("utf-8")

import os
from gensim import corpora,models,similarities
folders="./train_corpus_seg/"
path="files/"
import jieba



#这个其实相当于搜索引擎（实际中是爬虫）
# 得到的各大网站的网页内容存储到一个个文件夹里面，
# 当用户搜索的时候，从文件夹里面搜索最相关文章匹配的链接返回给用户

file_list=[]
for folder in os.listdir(folders):#遍历所有类别的文件夹
    for file in os.listdir(folders+folder):
        file_list.append(file)




corpora_documents=[]
for folder in os.listdir(folders):#遍历所有类别的文件夹
    for file in os.listdir(folders+folder):#遍历每一类文件夹中的每个文件
        f=open(folders+folder+'/'+file)
        strs=f.read().replace('\n', '')#去掉回车键
        item_seg=strs.split()#根据空格保存分词后的结果
        corpora_documents.append(item_seg)


#下面部分代码来自[2]

# 生成字典和向量语料  
dictionary = corpora.Dictionary(corpora_documents)  
  
# 通过下面一句得到语料中每一篇文档对应的稀疏向量（这里是bow向量）  
corpus = [dictionary.doc2bow(text) for text in corpora_documents]  
# 向量的每一个元素代表了一个word在这篇文档中出现的次数  
# print(corpus)  
# corpora.MmCorpus.serialize('corpuse.mm',corpus)#保存生成的语料  
# corpus=corpora.MmCorpus('corpuse.mm')#加载  
  
# corpus是一个返回bow向量的迭代器。下面代码将完成对corpus中出现的每一个特征的IDF值的统计工作  
tfidf_model = models.TfidfModel(corpus)  
corpus_tfidf = tfidf_model[corpus]  


#根据关键词返回最相关的一篇文章（模仿搜索引擎）
def get_article(index):
    best_matchfile=file_list[index]
    for folder in os.listdir(folders):#遍历所有类别的文件夹
        for file in os.listdir(folders+folder):#遍历每一类文件夹中的每个文件
            if file==best_matchfile:
                f=open(folders+folder+'/'+file)
                strs=f.read().replace('\n', '')#去掉回车键
                return strs#返回最匹配的文章内容






question='邹家华　矿产'
print("-------------------下面是tfidf模型(第1个提问)----------------------------------------------------")

similarity = similarities.Similarity('Similarity-tfidf-index', corpus_tfidf,num_features=len(dictionary.dfs))
#注意这里的num_features如果随意改的话，可能会导致segmentation fault（原因不明）.

test_data_1 = question
test_cut_raw_1 = list(jieba.cut(test_data_1))  # ['北京', '雾', '霾', '红色', '预警']
test_corpus_1 = dictionary.doc2bow(test_cut_raw_1)  # [(51, 1), (59, 1)]，即在字典的56和60的地方出现重复的字段，这个值可能会变化
similarity.num_best = 5
test_corpus_tfidf_1 = tfidf_model[test_corpus_1]  # 根据之前训练生成的model，生成query的IFIDF值，然后进行相似度计算
# [(51, 0.7071067811865475), (59, 0.7071067811865475)]
print(similarity[test_corpus_tfidf_1])  # 返回最相似的样本材料,(index_of_document, similarity) tuples

best_match_article=get_article(similarity[test_corpus_tfidf_1][0][0])
print("搜索得到最匹配的文章是:",best_match_article)
 
 
print("-------------------下面是tfidf模型(第2个提问)----------------------------------------------------")
test_data_2 = question
test_cut_raw_2 = list(jieba.cut(test_data_2))
test_corpus_2 = dictionary.doc2bow(test_cut_raw_2)
test_corpus_tfidf_2 = tfidf_model[test_corpus_2]
similarity.num_best = 3
print(similarity[test_corpus_tfidf_2])  # 返回最相似的样本材料,(index_of_document, similarity) tuples
print("-------------------下面是LSI模型-----------------------------------")
# 使用LSI模型进行相似度计算
lsi = models.LsiModel(corpus_tfidf)
corpus_lsi = lsi[corpus_tfidf]
similarity_lsi = similarities.Similarity('Similarity-LSI-index', corpus_lsi, num_features=400, num_best=2)
# save
# LsiModel.load(fname, mmap='r')#加载
test_data_3 = question
test_cut_raw_3 = list(jieba.cut(test_data_3))  # 1.分词
test_corpus_3 = dictionary.doc2bow(test_cut_raw_3)  # 2.转换成bow向量(bow=bag of words)
test_corpus_tfidf_3 = tfidf_model[test_corpus_3]  # 3.计算tfidf值
test_corpus_lsi_3 = lsi[test_corpus_tfidf_3]  # 4.计算lsi值
# lsi.add_documents(test_corpus_lsi_3) #更新LSI的值
print(similarity_lsi[test_corpus_lsi_3])