基于Java的DBLP数据库爬虫系统

项目平台

笔记本电脑系统:Ubuntu 16.04.2 LTS
Java version “1.8.0_51”
Mysql Server version: 5.7.17
可视化数据库管理工具:MySQL Workbench 6.3
Java version “1.8.0_51”
相关jar包:c3p0-0.9.2.1,jsoup-1.10.2,mchange-commons-java-0.2.3.4,mysql-connector-java-5.1.34-bin

实现功能

  Java爬虫系统,对DBLP(http://dblp.uni-trier.de/)中的论文信息进行爬取,爬取信息包括论文题目、作者、论文发表的会议名称、页码、年份、开会地点、开会日期等信息。姓名的姓和名分两个字段存储。将上述数据存入Mysql数据库。

基本过程

1.获取HTML
  使用HttpURLConnection获取网页源代码字符串。实现了动态页面的加载(通过Chrome DevTools对网页请求进行分析,按F12键,http://dblp.dagstuhl.de/search/publ/inc?q=ASPLOS&h=2&f=0,拿到这个请求链接后,只要修改其中的q(会议名),h(加载的论文数)

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值