Python项目推荐:文本相似度对比(附图形化界面)

15 篇文章 0 订阅
14 篇文章 0 订阅

项目github地址⭐️⭐️⭐️

1、实现的主要功能

  • 计算一个指定的文件和一个指定的文件夹下面每一个文件的相似度

  • 计算一个文件下任意两个文件的相似度

2、实现原理

本文的实现原来比较简单,总体上,就是先通过python的工具将文本从文件中提取出来,然后对其进行分词,这一步之后每一个文件都有一个词语列表与之对应,接下来就是词的向量化,向量化的技术非常多,本文基于原生的tf-idf算法。
在这里插入图片描述
核心代码的展示:

class Quantification:
    """
    @todo:计算TFIDF
    @return:result[[文章1的tfidf],[文章2的tfidf]···]
    @params:term_list{词1:num1,词2:num2···}
            doc_list:文章分词后组成的list[[文章1分词结果,文章2分词结果],···]
    """
    def __init__(self):
        self.tf = pd.DataFrame()
        self.idf = pd.Series()
        self.idIdf = []

    def quantification(self,termList, docList):
        numDocs = len(docList)
        numTerms = len(termList)

        # 先计算tf
        self.tf = pd.DataFrame(
            data=np.zeros(shape=(numDocs, numTerms)), columns=termList
        )
        for idxDoc, doc in enumerate(docList):
            lenDoc = len(doc)
            if lenDoc>0:
                for term in termList:
                    for termDoc in doc:
                        if termDoc == term:
                            self.tf.loc[idxDoc, term] += 1
                self.tf.loc[idxDoc, :] /= lenDoc
            else:
                continue
        # 再计算idf
        self.idf = pd.Series(
            data=np.zeros(shape=(numTerms,)), index=termList
        )
        for term in termList:
            for doc in docList:
                if term in doc:
                    self.idf.loc[term] += 1
        self.idf += 1
        self.idf /= numDocs
        self.idf = - np.log(self.idf)
        idfValue = []
        # 计算tf*idf
        for index in self.idf.index:
            idfValue.append(self.idf.loc[index])
        for index in self.tf.index:
            eachIdIdf = []
            j = 0
            eachTf = self.tf.loc[index].values[0:]
            for i in range(eachTf.size):
                if j < len(idfValue):
                    eachIdIdf.append(eachTf[i] * idfValue[j])  # TF—TDF=tf*tdf
                    j = j + 1
                else:
                    break
            self.idIdf.append(eachIdIdf)

        return self.tf, self.idf, self.idIdf

3、项目地址

3、项目部署

本项目推荐的部署方式是通过github,如果你没有这方面的经验,可以先去网上学习一下,或者直接通过百度网盘下载完整的源代码。

  • 将项目拉取到本地

    • 创建工作目录

      mkdir TextSimilarityProject
      cd TextSimilarityProject
      
    • 克隆

      git clone git@github.com:HumbleSwage/TextSimilarity.git
      
  • 配置环境

    • 使用conda创建环境

      conda create -n TextSimilarity python=3.8
      
    • 激活环境

      conda activate TextSimilarity
      
    • 下载依赖

      pip install -r requirements.txt
      
  • 运行程序

    go run main.go
    

如果你尝试了所有的方法都不能成功运行,但是你又想尝试一哈本本项目的一个具体效果,那么可以直接下载一个exe文件在本地运行,另外可以联系d_zhao_work@163.com帮你解决。

4、未来拓展

  • 针对向量化技术

    本文的向量化技术使用的是原生的tf-idf,其实sklearn已经提供了这样直接计算tf-idf的接口,非常的方便。另外词的向量化技术也可以选择一些其他的技术,比如说word2vec等等,下面是一些推荐的链接,你可以作为拓展方向:

  • 针对功能

    其实本项目的扩展方向比较宽,如果你的时间足够可以尝试以下的方向

    • 提取文本中的图片进行对比;
    • 提取文本中的表格与标准表格进行对比,判断正确个数;
    • 将本项目演变为一个自动打分系统;
  • 使用pyinstaller将本项目打包为exe或者.app可执行文件

    我们已经将项目进行打包,你可以直接进行体验

    • exe下载地址:本文mac电脑,无法测试,如果你能成功运行欢迎向我的github中进行pull request
    • dmg下载提取码: 7ux7

打包的命令可以参考以下的命令

 pyinstaller -F -w -i Pic/logo.ico main.py 
 -p ./Core --hidden-import CalculateSimilarity.py 
 -p ./Core --hidden-import Quantification.py 
 -p ./Panel --hidden-import MyMainForm.py
 -p ./Panel --hidden-import Ui.py
 -p ./Processor --hidden-import CutSelectContent.py
 -p ./Reader --hidden-import ReadContentAndPath.py
 -p ./Reader --hidden-import ReadFileContent.py
 -p ./Utils --hidden-import BeautifulOut.py
# -*- coding: utf-8 -*- ''' 事件传播有两种类型事件:基本事件和命令事件。它们不同于传播方式。事件传播是指事件从子部件 传到父部件和父窗口的父窗口等。基本事件不传播,命令事件传播。比如wx.CloseEvent是一个基本事件。 它没有传到父窗口的一样。默认情况下, 这种事件在一个事件处理器里就停止传播。如果想继续传播, 我们必须调用Skip()方法。 用event.Skip()方法调用事件默认处理程序 ''' import wx import threading from os.path import getsize def CompFile(win,file1,file2): try: if getsize(file1) != getsize(file2): win.m_staticText4.SetFont(win.font) win.m_staticText4.SetForegroundColour(wx.Colour(255,0,0)) win.m_staticText4.SetLabelText('文件比较结果:两个文件比较结果不一样') win.m_button4.SetFocus() win.m_button4.SetDefault() return f1=open(file1,'rb') f2=open(file2,'rb') except Exception as e: win.m_staticText4.SetFont(win.font) win.m_staticText4.SetForegroundColour(wx.Colour(255,0,255)) win.m_staticText4.SetLabelText('打开文件错误:'+e.strerror) win.m_button4.SetFocus() win.m_button4.SetDefault() else: for f11,f22 in zip(f1.read(),f2.read()): if f11 != f22: win.m_staticText4.SetFont(win.font) win.m_staticText4.SetForegroundColour(wx.Colour(255,0,0)) win.m_staticText4.SetLabelText('文件比较结果:两个文件比较结果不一样') win.m_button4.SetFocus() win.m_button4.SetDefault() return else: win.m_staticText4.SetFont(win.font) win.m_staticText4.SetForegroundColour(wx.Colour(0,155,0)) win.m_staticText4.SetLabelText('文件比较结果:两个文件比较结果一模一样') win.m_button4.SetFocus() win.m_button4.SetDefault() finally: try: f1.close() f1.close() except: pass class FileDrop(wx.FileDropTarget): def __init__(self, textctrl): wx.FileDropTarget.__init__(self) self.textctrl = textctrl def OnDropFiles(self, x, y, filePath): # 当文件被拖入grid后,会调用此方法 self.textctrl.SetValue(''.join(filePath)) return 1 class Mywin(wx.Dialog): def __init__(self,parent,title): super().__init__(parent,title=title,size=(500,200),style=wx.DEFAULT_FRAME_STYLE|wx.STAY_ON_TOP) self.InitUI() def InitUI(self): icon = wx.Icon('33.ico', wx.BITMAP_TYPE_ICO) self.SetIcon(icon) self.SetSizeHints( wx.DefaultSize, wx.DefaultSize ) bSizer7 = wx.BoxSizer( wx.VERTICAL ) bSizer8 = wx.BoxSizer( wx.HORIZONTAL ) self.m_staticText2 = wx.StaticText( self, wx.ID_ANY, u"第一个文件", wx.DefaultPosition, wx.DefaultSize, 0 ) self.m_staticText2.Wrap( -1 ) bSizer8.Add( self.m_staticText2, 0, wx.ALL, 10 ) self.m_textCtrl3 = wx.TextCtrl( self, wx.ID_ANY, wx.EmptyString, wx.DefaultPosition, wx.DefaultSize, 0 ) self.m_textCtrl3.Bind(wx.EVT_TEXT_ENTER,self.onTextChange) self.fileDrop = FileDrop(self.m_textCtrl3) self.m_textCtrl3.SetDropTarget(self.fileDrop) bSizer8.Add( self.m_textCtrl3, 1, wx.ALL, 5 ) bSizer7.Add( bSizer8, 0, wx.EXPAND, 5 ) bSizer9 = wx.BoxSizer( wx.HORIZONTAL ) self.m_staticText3 = wx.StaticText( self, wx.ID_ANY, u"第二个文件", wx.DefaultPosition, wx.DefaultSize, 0 ) self.m_staticText3.Wrap( -1 ) bSizer9.Add( self.m_staticText3, 0, wx.ALL, 10 ) self.m_textCtrl4 = wx.TextCtrl( self, 5001, wx.EmptyString, wx.DefaultPosition, wx.DefaultSize, 0 ) self.fileDrop1 = FileDrop(self.m_textCtrl4) self.m_textCtrl4.SetDropTarget(self.fileDrop1) bSizer9.Add( self.m_textCtrl4, 1, wx.ALL, 5 ) bSizer7.Add( bSizer9, 0, wx.EXPAND, 5 ) bSizer11 = wx.BoxSizer( wx.HORIZONTAL ) self.m_button4 = wx.Button( self, wx.ID_ANY, u"文件比较", wx.DefaultPosition, wx.DefaultSize, 0 ) self.m_button4.Bind(wx.EVT_BUTTON,self.OnButton) self.m_button4.SetFocus() self.m_button4.SetDefault() bSizer11.Add( self.m_button4, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL, 5 ) self.m_button5 = wx.Button( self, wx.ID_ANY, u"清空文本", wx.DefaultPosition, wx.DefaultSize, 0 ) self.m_button5.Bind(wx.EVT_BUTTON,self.OnClear) bSizer11.Add( self.m_button5, 0, wx.ALL|wx.ALIGN_CENTER_HORIZONTAL, 5 ) bSizer7.Add( bSizer11, 0, wx.ALIGN_CENTER|wx.ALIGN_LEFT, 5 ) bSizer12 = wx.BoxSizer( wx.VERTICAL ) self.font=wx.Font(16,wx.ROMAN,wx.NORMAL,wx.NORMAL) self.font.FaceName="微软雅黑" self.m_staticText4 = wx.StaticText( self, wx.ID_ANY, u"文件比较结果:", wx.DefaultPosition, wx.DefaultSize, 0 ) self.m_staticText4.SetFont(self.font) self.m_staticText4.Wrap( -1 ) bSizer12.Add( self.m_staticText4, 0, wx.ALL, 5 ) bSizer7.Add( bSizer12, 1, wx.EXPAND, 5 ) self.SetSizer( bSizer7 ) self.Layout() self.Bind(wx.EVT_CLOSE,self.onClose) self.Centre( wx.BOTH ) self.Show() def onTextChange(self,evt): self.m_button4.SetFocus() self.m_button4.SetDefault() def OnButton(self,event): file1=self.m_textCtrl3.GetValue() file2=self.m_textCtrl4.GetValue() t1=threading.Thread(target=CompFile,args=(self,file1,file2),name="CompFile") t1.start() self.m_staticText4.SetLabelText('正在比较文件请稍后!...') #CompFile(self,file1,file2) def OnClear(self,event): self.m_staticText4.SetForegroundColour(wx.Colour(0,0,0)) self.m_staticText4.SetLabelText('文件比较结果:') self.m_textCtrl3.SetValue('') self.m_textCtrl4.SetValue('') self.m_button4.SetFocus() self.m_button4.SetDefault() def onClose(self,e): self.Destroy() app=wx.App() Mywin(None,'文件比较') app.MainLoop()
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值