自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

CharlesPrince的专栏

大数据

关注

关注数：文章数：1 文章阅读量：1772 文章收藏量：1

作者: CharlesPrince

程序是所有情况的预测和达到目的的逻辑

展开

使用IE控件来分析网页结构，模拟测试爬虫，使用scrapy+selenium来执行网页爬虫

通常我们使用scrapy来进行网页内容的收集，但使用起来非常的不方便： 1. 需要使用工具，或者手动来计算得到网页元素的xpath。 2. 对一些网页内需要ajax的运行才显示的内容处理起来并不方便。我通过找相关的工具，研究爬虫方案，找到了一个比较合适的工具软件，和方便易用的处理流程：工具软件的名字是掘金数据处理平台，界面如下： scrapy辅助界面如下：使用方法： 1...

原创 2018-11-28 14:19:39 · 1772 阅读 · 0 评论