Scrapy框架多线程爬取百万数据

本文介绍了如何使用Scrapy框架进行多线程爬取大规模数据。首先确定目标网址和所需数据,通过分析网址结构找到数据源。在抓包过程中,发现并修改了较短的URL,从而能够生成所有页面的URL。为了避免因访问频次过高导致的IP封锁,设置了0.5秒的访问间隔。最后,使用XPath解析数据,并以CSV格式保存结果,完成爬虫的编写。
摘要由CSDN通过智能技术生成

1.确定目标网址

目标网址:

 确定我需要的数据

 

获取的数据量大,用到Scrapy框架

2. 我们就分析目标网址。

 1)利用抓包,分析到一些包的路径。

 每次下一页时,就会加载出新的包。这个链接网页是这样滴。

这个url地址很长,又找啊,终于找到个短一点的。

感觉这个也长我们就修改一下。第一页的url地址就有了,其它也只需用range()函数就能获取到他2

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值