项目平台
笔记本电脑系统:Ubuntu 16.04.2 LTS
Java version “1.8.0_51”
Mysql Server version: 5.7.17
可视化数据库管理工具:MySQL Workbench 6.3
Java version “1.8.0_51”
相关jar包:c3p0-0.9.2.1,jsoup-1.10.2,mchange-commons-java-0.2.3.4,mysql-connector-java-5.1.34-bin
实现功能
Java爬虫系统,对DBLP(http://dblp.uni-trier.de/)中的论文信息进行爬取,爬取信息包括论文题目、作者、论文发表的会议名称、页码、年份、开会地点、开会日期等信息。姓名的姓和名分两个字段存储。将上述数据存入Mysql数据库。
基本过程
1.获取HTML
使用HttpURLConnection获取网页源代码字符串。实现了动态页面的加载(通过Chrome DevTools对网页请求进行分析,按F12键,http://dblp.dagstuhl.de/search/publ/inc?q=ASPLOS&h=2&f=0,拿到这个请求链接后,只要修改其中的q(会议名),h(加载的论文数)