基于java的网络爬虫的设计与实现

 一、环境信息

运行环境:java8、mysql5.6
开发语言:java
开发框架:springboot +springmvc+mybatis +themeleaf+jpa+mysql+html

更多成品案例详情,请看“IT毕设帮”(bishehelp.com)

二、系统模块

管理员管理

1、登陆

2、爬取记录:每个月爬取一次,每次爬取的记录,包含本次正确爬取的数量、时间、日期,每次爬取100条

 记录列表中会显示下次爬取的时间,需要在下次爬取时间之后开启程序,程序才会自动爬取数据,爬取内容有标题、作者、关键词、引用

前台

1、首页,有一个搜索框,可以搜索论文名称(有个高级搜索字样),搜索后显示论文的详情,

 搜索框下面有多个领域,并统计领域下的论文数量,如:医学(4),哲学(75),点击领域名称进入论文列表(按照被引用次数降序),论 文列表全部是该领域下的论文标题,点击标题进入详情页面

2、详情:详情里面显示 论文的标题、作者、关键词、引用 ,和关系图谱,关系图谱就是引用关系,关系图谱中引用关系仅展示一层,如 当前论文 引用了 其他6个论文,点击高级搜索,跳转新页面,页面中有标题,和作者输入栏,可以全部输入内容联合搜索,可以只输入一项进行搜索

其他说明

1、每次爬取10个论文,以及对应的引用论文,引用对应的引用论文,爬取3层(1层-3层),第三层的引文点击跳转到citeseer对应地址

2、过一个月,第二次爬取时,爬取上次的第三层的引文(第四层)按照第一次爬取规则,再爬3层(4层-6层),最后一次的引文依然是跳转到citeseer,第四层原本跳转到citeseer 的链接改为本地系统跳转。

3、后台新增论文 管理,可以修改论文全部信息、可以删除

4、论文详情中,有的论文会有引用论文,点击可以进入另一个论文,有的论文详情中没有引用论文(引用对应的引用论文)

5、论文新增摘要字段

6、比如说论文A是作者a的其中一篇论文,那么他和作者b合作过论文B,

在论文A的详情页的图里面要展示作者a和作者b同时指向论文B的图

在论文B的详情页的图里面要展示作者a和作者b 两个图,所有和他们合作的论文作者关系图

引文点击跳转如果是详情的,就是可以继续往下爬的, 如果是列表的,就跳过

三、界面展示

  • 12
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值