网络查重


想法

初步构想,逐步完善;
本次是以实验描述为关键字爬取网络上的内容,和本地样本进行对比;
读取爬取的网页中的元素,储存链接;
利用查重算法和本地文本进行对比(目前不重于算法,暂时使用TF-IDF余弦相似性)。

做法

将各个逻辑分离,代码分为六个部分:
1、条件输入
2、建立搜索引擎连接
3、获取本地文件内容
4、分析爬取结果
5、整合封装各个功能
6、其他的条件扩展
每个部分用一个py文件实现,已经上传了到项目git中。

参考: 利用Python制作文章查重系统

效果

运行结果:
在这里插入图片描述

思考

这样有了整体的架构,后续要填充功能,弥补缺陷。

目前的一些待解决的问题:
1、如何设计应用界面并与其他功能相连接;
2、搜索引擎环境配置等会不会影响到可移植性;
3、因为网页读取时延问题,现在暂时用time.sleep方法减少读取失败而返回about:blank的情况,牺牲了处理时间;
4、网页的换页方法有问题,导致无法规定爬取网页的数量;
5、爬取的内容不是期望值,现在爬取的是网页的全部文本,这对查重算法的影响是巨大的;
6、查重算法不完善,也无法区分正文与代码,结果没有可信度;
7、网页的期望内容(如代码)较难锁定,可能会考虑读取常用网站的特定标签(如CSDN);
8、查重需要建立字典,耗时较多,应该无法满足后期使用,考虑利用数据库技术。

总而言之,任重而道远,但只要有方向就OK。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值