hustlearner-CSDN博客

网络查重无功而返，不甘心；这次换了一种思路，制作了一个简陋的网络查重。思路：使用Tkinter生成一个简单界面Tkinter 是一个python模块，是一个调用Tcl/Tk的接口，它是一个跨平台的脚本图形界面接口。界面中包含四个选项：选择文件、查重、展示结果和导出结果。选择文件并分词从系统中选择一个文件（一般考虑为代码的txt或docx文件），并对其进行分词，每50个字符分为一组。使用爬虫使用百度搜索引擎，把每一段分词分别作为爬虫关键字，爬取查询结果中的每一段红字及其超链接。相似度计算

2021-05-22 10:33:58 485

原创几种文本相似度的度量方式

寻找了几种文本相似度的度量方式，可以考虑应用到查重算法当中去，增加广度。code:# coding: utf-8#基于分词的文本相似度的计算,#利用jieba分词进行中文分析import jiebaimport jieba.posseg as psegfrom jieba import analyseimport numpy as npimport os'''文本相似度的计算，基于几种常见的算法的实现'''class TextSimilarity(object):

2021-05-22 09:49:01 462 1

原创共现矩阵

想法希望将共现矩阵加入到查重算法中；共现矩阵：主要用于发现主题，解决词向量相近关系的表示。这个特性并不能很好地被查重方法利用，至少在处理代码时作用不大；或许可以考虑处理正文。做法这里给出一种共现矩阵的实现：可以遍历一个文件夹下的文件，给出词频的共现矩阵（中文）。code：# coding:utf-8import numpy as npimport pandas as pdimport jieba.analyseimport os# 获取关键词def Get_file_keyw

2021-05-22 09:44:43 1683

原创 2021.5.16项目进度报告

本周进度1.实现了文件内容的按序提取。2.使查重结果可视化。下周目标

2021-05-16 20:29:31 119

原创顺序提取

需求将docx中的正文、表格和图片按原有的顺序提取出来。之前就尝试解决过，最终选择通过本文的方法实现。解决方法python的库函数不足以直接进行处理；docx文档也难以进行外部操作。所以思路是：1.需要实验报告的图片前加上标识符：--picture%--其中%是这个图片的序号，从一开始；2.分别提取正文和图片，生成txt文件和png文件，此时txt中图片相应位置内容为空；3.调用外部接口识别图片内容，插入到txt相应标识的后边。这样就可以满足需求。code：# 将图片信息写入t

2021-05-15 16:30:59 242

原创 2021.5.9项目进度报告

本周进度1、试用了jparser、url2io来筛选爬取的内容，但是使用起来非常不方便，没有采取。2、获取了网页源代码，提取其中的代码部分，使用beautifulsoup库，观察常用网站的标签提取；这样做貌似不足以解决问题，因为不同网页的代码部分不一样。3、由于网速问题时而出现爬不到内容的现象，还有一些随机性的错误。4、浏览器资源占用过多，程序会崩溃。下周目标完善这些部分，做出一个能够简单投入使用的demo。...

2021-05-09 18:57:29 102

原创 2021.5.1项目进度报告

本周进度1.能够处理pdf文档；2.能够解压zip、rar形式的压缩文件；3.补充了一些需要用到的方法；4.docx文档中的元素部分按序识别；5.尝试混淆工具修改指定内容。体现在方法集合pick_method中，以下为更新的方法：get_file_nameget_pdf_textget_pdf_pictureget_tailget_compressed_filesget_pathget_picture_textget_text_picture_not_tableget_all_

2021-05-01 10:24:42 85

原创去掉代码中的变量名

需求一种常见的抄袭做法是修改方法名和变量名；如果在查重的时候去掉这些元素，就可以避免相关误差。做法这个问题困扰我许久了…思考过的解决方案：常用词库顾名思义就是把各个语言所有的常用语法列出来并保存，这些元素以及符号之外的字符就可以认为是变量名和方法名，处理源代码是删除它们即可。这样做有很大的问题：1.词库过于庞大。如python语言，不可能把所有外部库里的元素都遍历并储存。2.失误率太高。一个变量名和词库中的某个词一致或相似，难以判断是否删除。3.如何作为整体识别。以.或空格区分？效率太

2021-04-28 14:49:19 516

原创 docx元素按序提取

目的将docx文档中的正文、表格、图片按出现的顺序提取出来。做法尝试了两种思路：1.

2021-04-28 14:34:42 909

原创 2021.4.24项目进度报告

本周进度本周准备中期检查，将我的代码整合到整个项目中，便于展示运营；根据队友的要求，调整我的主要代码，从而实现期望的功能。下周目标提取不同类型的文件，如压缩文件，pdf；讲实验报告中的元素按顺序提取，包括正文和图片；去掉代码中的变量名。...

2021-04-25 19:40:20 156

原创 python处理压缩文件

前言由于不确定压缩文件里都会包含什么，需要做的处理就是把里边的内容提取到一个文件夹中，方便后续的操作；也就是说只需要解压缩文件。考虑实际应用，暂时只支持rar类型和zip类型。做法用到了zipfile库，shutil库，rarfile库。获取文件后缀看是哪一种压缩文件；寻找输出目录，没有则创建。code：#in_path:压缩文件路径#out_folder_path:压缩文件解压后生成文件夹，储存这个文件夹的文件夹路径def get_compressed_files(in_path, o

2021-04-24 18:08:50 246

原创 python提取pdf

系列文章目录提示：这里可以添加系列文章的所有文章的目录，目录需要自己手动添加例如：第一章 Python 机器学习入门之pandas的使用提示：写完文章后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录系列文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例

2021-04-24 16:47:45 332

原创中期总结

目录前言第一周第二周第三周第四周第五周第六周第七周第八周总结前言项目已经推进到了第八周，做一个中期的总结。第一周主要内容：是确定小组成员；考虑项目内容；联系指导老师；确定分工。也是出于大一大二的学习经历考虑，想到做一个代码的检错与查重桌面应用，方便批改提交的作业；没有设计为web应用主要是由于服务器的运行维护。我负责的部分是代码的提取，主要包括实验报告和图片。第二周根据指导老师的提示和网络上的一些资料，考虑项目的技术手段；最初的想法是用第三方工具tika实现对内容的提取，用p

2021-04-21 21:07:12 114

原创 2021.4.18项目阶段报告

本周进度能够提取docx文档中的图片；能够移除代码中的注释和空行，生成一个大字符串；能够适应多种语言；能够有docx标记的内嵌代码输出源代码文件；能够由txt识别输出源代码文件；下周目标...

2021-04-19 14:27:07 79

原创由txt文件识别输出源代码文件

项目需求由于代码质量检测需要输入源代码文件，故要将提取出来的txt为你教案转化为如a.cpp, b.java的源代码文件。解决方法考虑使用fuzzywuzzy库对txt文件的字符进行模糊查询，判断代码的类型。...

2021-04-14 21:48:05 405

原创由docx内嵌代码输出源代码文件

识别docx内嵌的代码类型，转化为相应的.cpp~.java等文件。使用正则表达式实现：# 正则表达式处理 # 方法比较蠢，伺机优化 r1 = r'--begin--c--code--(.+?)(?=--end--c--code--)' r2 = r'--begin--cpp--code--(.+?)(?=--end--cpp--code--)' r3 = r'--begin--java--code--(.+?)(?=--end--java--code--)'

2021-04-14 20:07:16 197

原创 python去除代码中的注释和空行

项目需求文件查重功能需要把源代码中的注释去除。解决方案.py测试代码（成功）：选择文件夹即可批量处理。# -*- coding: GBK -*-#py文件去注释import reimport osimport configparserPython='CleanNote'SrcPath='E:\python\py_pick\\result'DescPath='E:\python\py_pick\\result'def ReadIni(path,section,option):

2021-04-14 15:09:01 2649 1

原创 python提取docx中的图片

需求提交的实验报告中会包含大量图片；需要把它们提取出来，并用文件命标记，方便后续的内容读取。做法输入输出为docx文档路径和结果输出的路径；docx本质上是一个压缩文件，利用docx库找到其中的图片文件。核心代码：def get_pictures(word_path, result_path): """ 图片提取 :param word_path: word路径 :param result_path: 结果路径 :return: """

2021-04-14 11:03:18 976

原创 2021.4.9项目阶段报告

本周进度项目成果思考了网络查重的解决方案，编写了一个Demo；能够爬取网页上的内容与本地文件进行对比；具体实现由六个py文件组成，封装六个功能：1、条件输入2、建立搜索引擎连接3、获取本地文件内容4、分析爬取结果5、整合封装各个功能6、其他的条件扩展下周目标1、整理思路，完善技术，提高结果可信度；2、着重处理翻页问题、句柄切换问题、读取时延问题；3、筛选读取的内容，增加样本，减小误差；4、如果有更好的思路和解决方案，积极改动。...

2021-04-09 14:24:57 107

原创网络查重

目录想法做法效果思考想法初步构想，逐步完善；本次是以实验名为关键字爬取网络上的内容，和本地样本进行对比；做法利用爬虫爬取网络上的资源，以实验名为关键字；参考: 利用Python制作文章查重系统效果运行结果：思考...

2021-04-08 20:49:32 275

原创 2021.4.2项目阶段报告

本周进度项目成果目前已经可以基本满足提取的要求；对于实验报告，可以提取内容生成(实验报告名)text.txt和(实验报告名)code.txt；对于图片，可以提取其中的文字生成txt文件；可以批量处理，选择指定路径，准确率较高，速度还算可观。具体实现提取实验报告使用docx库：def for_docx(in_path, out_path_text, out_path_code): ft = open(out_path_text, 'w', encoding='utf-8')

2021-04-02 10:45:27 127 1

原创正则表达式分离正文和代码

文章目录前言一、设计思路二、具体做法总结前言处理实验报告时需要将正文和代码分离，以满足后期检查的需求；首先想到的就是用正则表达式处理。一、设计思路要求嵌在实验报告中的代码在前后加上标记：–begin–code–，--end–code–，如：--begin--code--public class HelloWorld { public static void main(String[] args) { System.out.println("Hello World!"); }}-

2021-04-02 10:26:19 193

原创使用百度ocr接口

目录前言一、准备工作二、使用步骤总结前言由于tesseract难以满足需求，尝试调用百度的api接口。一、准备工作只需要使用百度账号创建一个文字识别的应用，获取其API key和Secret key，在程序中调用即可。二、使用步骤注意要有一个鉴权的过程，获取到代表有合法性的access token后才能发起请求；再写提取函数即可：def for_picture(in_path, out_path): url = 'https://aip.baidubce.com/oauth/2.

2021-04-01 17:19:27 596

原创提高pytesseract图片识别的准确度

目录前言一、图片二值化处理二、样本训练前言由于pytesseract提取图片的准确度太低，不足以提取代码以进行后续的检查，所以要提高图片识别的准确度。一、图片二值化处理对一个图片进行处理，使其更加容易被识别。处理过程中发现生成的文件很小，没有什么内容，说明识别的过程出了问题。后来使用cv2.threshold函数处理，可以把一个图片相对清楚地显示出来，但是要使不同的图片显示地更加清晰，要对应不同的阈值；发现阈值的确定和图片的底色有关系。对图片进行灰度处理，效果有提升但不明显。二、样本训

2021-04-01 16:44:10 5336

原创 2021.3.25项目阶段报告

本周进度整体思路思路发生了变化。之前是采用利用python和pyqt实现前端界面，java以及tika，tesseract等jar包完成后端逻辑，再打包成jar包导入qt的想法；现在认为将jar包导入可以说是多此一举，浪费空间且不便调试，其实可以直接用python解决问题。项目成果遇到的问题QtWidgets.QFileDialog.getOpenFileName()的返回值问题：返回的是QString类型，不能直接当作字符串类型处理；关于全局变量global的问题，调试了许久也没有搞明白，最后

2021-03-26 14:13:54 141 2

原创 python库 replace jar包导入

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码

2021-03-26 13:57:50 740

原创运行和思考

系列文章目录文章目录系列文章目录界面界面现在的思路是：界面上选择输入和输出路径，以及文件；传入选中的文件地址，调用tika或tesseract处理；处理完成后生成txt文件输出在输出路径。选择输入的文件，根据类型自动选择tika或者tess（暂时不管docx里边的图片）；选中的路径作为提取函数的输入；目标输出路径作为写函数的输入；直接在目录里生成结果。...

2021-03-25 19:40:55 97

原创 ocr的使用

文章目录前言一、OCR简介二、使用步骤1.引入库2.读入数据总结前言在本次项目中希望使用ocr来实现对图片的识别，通过调用ocr的外部接口，提取图片中的代码。一、OCR简介示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimpo

2021-03-19 21:58:52 272

空空如也

空空如也