最近几天用爬虫采集京东的数据,分别用java,python,selenium写了一些小例子。
1、requests_jd
主要应用技术:requests采集,lxml 解析, pandas 简单分析。
2、selenium_jd
GitHub地址
主要应用技术selenium + Chrome 完成下载、解析。
虽然运行效率远低于requests_jd,但是开发效率高不少,因为不用考虑下拉和评论数单独请求,而且提供了丰富的解析方式。这里用的和上面一些都是Xpath方式。
3、JdSpiderByJava
GitHub地址
主要技术:HttpClient 采集,Jsoup 解析html,fastjson解析json数据,lombok自动生成代码。
用java来写爬虫代码量大一些,主要是需要封装一下HttpClient。就解析网页来说,相差不大。
4、爬取结果