使用IE控件来分析网页结构，模拟测试爬虫，使用scrapy+selenium来执行网页爬虫

最新推荐文章于 2023-06-22 15:08:52 发布

置顶 CharlesPrince

最新推荐文章于 2023-06-22 15:08:52 发布

阅读量1.7k

点赞数

分类专栏：大数据人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CharlesPrince/article/details/84583100

版权

人工智能同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

通常我们使用scrapy来进行网页内容的收集，但使用起来非常的不方便：

1. 需要使用工具，或者手动来计算得到网页元素的xpath。

2. 对一些网页内需要ajax的运行才显示的内容处理起来并不方便。

我通过找相关的工具，研究爬虫方案，找到了一个比较合适的工具软件，和方便易用的处理流程：

工具软件的名字是掘金数据处理平台，界面如下：

scrapy辅助界面如下：

使用方法：

1. 在浏览器窗体，输入浏览url，打开目标网页

2. 使用右键点击网页中的元素（字符，图片等），就可以直接分析出元素的xpath，属性值等信息。

3. 在控制面板可以配置如何处理这些元素。

4. 可以对钮点击后，分析相应的日志执行流程。

5. 在scrapy面板下，打开一个目标python文件，右键点击网页元素可以将xpath直接插入到文本中。

6. 可以测试运行，并且数据会记录在内置的sqlite数据库中。

测试方法可以参考视频教程：

http://v.youku.com/v_show/id_XMTgyNzQxMzA2MA==.html?spm=a2h0j.11185381.listitem_page1.5~A

同时打开工具，和开发环境，两者一起配合编写成功scrapy+selenium数据收集脚本。

运行scrapy脚本，观察分析结果，再次调整，同时对比工具的测试运行结果。

使用以上的处理流程会非常方便的制做一个强大的数据收集脚本。

有任何使用方面的问题，请大家留言。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用IE控件来分析网页结构，模拟测试爬虫，使用scrapy+selenium来执行网页爬虫

通常我们使用scrapy来进行网页内容的收集，但使用起来非常的不方便：1. 需要使用工具，或者手动来计算得到网页元素的xpath。2. 对一些网页内需要ajax的运行才显示的内容处理起来并不方便。我通过找相关的工具，研究爬虫方案，找到了一个比较合适的工具软件，和方便易用的处理流程：工具软件的名字是掘金数据处理平台，界面如下：scrapy辅助界面如下：使用方法：1...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。