Beta版本发布说明

发布地址

https://github.com/LongWerLingShi/DataObtainingAndHandling/tree/beta

版本开发背景

  首先,应软件工程课程要求,我们小组针对学霸网站进行了后台数据处理与获取模块的开发。在最初的两周里面,基于前届学长们的作品,我们开发出了alpha版本。但是受限于老旧的代码架构,很多的问题都无法得到有效的解决。于是在接下来的一个月里面,我们又开发出了beta版本,彻底抛弃了之前爬虫程序以及数据处理程序的全部框架,重新构建了完整的程序。在性能获得质的飞跃的同时,我们还新增了管理网页用于查看当前的处理进度以及控制程序

新增功能

  1. 爬虫权限控制(robot.txt协议)
  2. 新增新增基于之前爬取进度继续爬取的功能
  3. 新增多线程爬虫
  4. 新增动态控制爬虫开关以及数量的功能
  5. 新增动态增加删除seed的功能
  6. 新增网页图形化显示界面
  7. 新增对于问答对的处理
  8. 新增爬取图片的功能
  9. 新增对于中文的支持
  10. 新增基于TD-IDF算法的关键词提取模块

修复缺陷

  1. 修复了编码格式不一致导致的乱码问题
  2. 修复了爬虫相关的所有bug(因为重构)
  3. 修复了中英翻译的bug

 

对于于运行环境的要求

  1. window系统
  2. 可以正常访问ipv6网站

安装使用

  1. 整个系统分为爬虫以及数据处理两个部分
  2. 爬虫作为爬取数据源,需要作为java后台程序一直运行并且可以通过网页来控制
  3. 网页需要安装配置好apache、php相关环境
  4. 具体操作安装方法见文档:学霸数据处理项目之数据处理框架开发者手册(http://www.cnblogs.com/nrm1/p/6215275.html)

系统已知的问题以及限制

  1. 由于服务器网络环境的限制,所以当前只能在个人pc上运行,在服务器上无法正常访问部分网站
  2. 出于对爬虫准确性的控制,增加了对于域名访问的限制,可能会影响一些爬虫对于单个网站爬取的效率

 

功能对照表

 

测试功能测试项效果描述完成情况
管理页面处理程序启动点击“开始”按钮可以让处理程序开始处理 T
打开爬虫管理页面点击“来源配置”弹出爬虫管理页面 T
打开输出目标配置页面点击“输出配置”弹出输出配置页面 T
爬虫功能爬虫爬取信息seed增加可以在爬虫管理页面手动增加爬取信息来源网站 T
爬虫关键词筛选可以增加关键字在爬取信息的时候筛选内容 T
爬虫多线程启动可以自定义启动几个爬取线程,并且可以看到各个线程的运行情况 部分
爬虫信息展示可以看到此处运行爬虫的信息,运行时间、爬取到的文件数 T
爬虫爬取网站数量限制可以自定义爬虫爬取网站数,如果缺省则一致爬下去 F
爬虫文件信息保存从网上爬下的信息可以按照格式保存在数据库里面,可以从数据库看到数据更新 T
数据处理功能数据处理启动控制可以在网站上管理当前数据处理线程的启动与暂停 T
doc数据文本信息获取从doc文件中提取文本信息出来 T
doc关键信息提取从doc文件中提取关键信息并且保存 T
html数据文本获取从html提取去噪后的文本 T
html关键信息提取从html文件提取关键信息 T
pdf数据文本获取从pdf文件提取文本信息 T
pdf关键信息提取从pdf文件中提取关键词 T
问答对网站信息提取从问答网站提取问题以及优质答案 T
拓展功能配置链接的solr账户可以手动配置需要链接的solr数据库 F
自定义上传允许用户进行solr索引删除以及重建选项 F
提供修改关键词接口提供修改关键词接口以及访问方法 T
登陆账户提供登陆界面,使用固定账号才可以登陆到管理界面里面 T

转载于:https://www.cnblogs.com/longweilingshi/p/6250433.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值