基于java语言的百科实体的多线程爬虫(Java+Selenium+Jsoup)
基于java语言的百科实体的多线程爬虫
一、实现功能
利用爬虫爬取人物的简介,以及其关联人物,并将其保存到文件中,例如对于人物“陈信宏”,可以得到的
百科简介为
关联人物为:
二、技术要点
爬虫html页面下载部分采用两种方式(喜欢那种用那种,代码中以可插拔的方式实现)
对于正常的比较容易拿到url的页面,如百度百科等,直接利用Jsoup库下载html页面
对于查询的关键词没有在url中直接体现的情况(如搜狗百科),比较笨的办法是可以使用模拟浏览器的方式,这里采用的是开源工
原创
2021-11-06 09:27:44 ·
543 阅读 ·
0 评论