使用IE控件来分析网页结构,模拟测试爬虫,使用scrapy+selenium来执行网页爬虫
通常我们使用scrapy来进行网页内容的收集,但使用起来非常的不方便:
1. 需要使用工具,或者手动来计算得到网页元素的xpath。
2. 对一些网页内需要ajax的运行才显示的内容处理起来并不方便。
我通过找相关的工具,研究爬虫方案,找到了一个比较合适的工具软件,和方便易用的处理流程:
工具软件的名字是掘金数据处理平台,界面如下:
scrapy辅助界面如下:
使用方法:
1...
原创
2018-11-28 14:19:39 ·
1772 阅读 ·
0 评论