python爬虫系列--批量爬取码云开源网站数据

本文介绍了使用Python爬虫批量抓取码云开源网站数据的过程,涉及requests、bs4、threading和xlwt库。通过多线程提高效率,将爬取的数据存储到Excel中。在实际操作中,由于没有使用IP池,导致部分抓取过程中遇到IP被封的问题,最终成功抓取8000条数据。
摘要由CSDN通过智能技术生成

python所需要的库

  1. requests —这个库用于访问网站,并获取网页数据
  2. bs4 ---- 用户html的标签解析拿出我们所需要的数据
  3. threading — 使用多线程,可以让我们的爬虫执行效率变高
  4. xlwt — excel表格的操作,用户保存我们所爬下的数据
  5. time — 关于时间的操作

先初步介绍一下码云这个站,这个站是一个程序员的免费仓库,也被视为开源网站,我们爬下他的数据可以快速的通过excel搜索进行我们代码的帮助,废话不多说直接python写代码开始爬取

重写多线程,并且通过传入的url通过visited这个方法去返回他的源码,因为在此之前我就采集了1W个左右的网站链接,在这里就不写了,我把他保存在一个text文本里面

class Web(threading.Thread):
    def __init__(self, url):
        super().__init__()
        global thread_number
        thread_number += 1
        print("已开启线程%s" % thread_number)
        # 传入url,实例化
        self.url = url

    def visited(self):
        global error
        try:
            # 访问这个url 去获取数据,去掉空格
            r = requests.get(self.url[0:-1])
            r.raise_for_status()
            c = r.content.decode()
        
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值