python爬虫系列--批量爬取码云开源网站数据

最新推荐文章于 2024-08-19 15:26:53 发布

沫.....啊

最新推荐文章于 2024-08-19 15:26:53 发布

阅读量1.1k

点赞数 1

分类专栏：学生文章标签：爬虫 python 多线程数据采集自动化

本文链接：https://blog.csdn.net/qq_39911925/article/details/88011044

版权

本文介绍了使用Python爬虫批量抓取码云开源网站数据的过程，涉及requests、bs4、threading和xlwt库。通过多线程提高效率，将爬取的数据存储到Excel中。在实际操作中，由于没有使用IP池，导致部分抓取过程中遇到IP被封的问题，最终成功抓取8000条数据。

摘要由CSDN通过智能技术生成

python所需要的库

requests —这个库用于访问网站，并获取网页数据
bs4 ---- 用户html的标签解析拿出我们所需要的数据
threading — 使用多线程，可以让我们的爬虫执行效率变高
xlwt — excel表格的操作，用户保存我们所爬下的数据
time — 关于时间的操作

先初步介绍一下码云这个站，这个站是一个程序员的免费仓库，也被视为开源网站，我们爬下他的数据可以快速的通过excel搜索进行我们代码的帮助，废话不多说直接python写代码开始爬取

重写多线程，并且通过传入的url通过visited这个方法去返回他的源码，因为在此之前我就采集了1W个左右的网站链接，在这里就不写了，我把他保存在一个text文本里面

class Web(threading.Thread):
    def __init__(self, url):
        super().__init__()
        global thread_number
        thread_number += 1
        print("已开启线程%s" % thread_number)
        # 传入url，实例化
        self.url = url

    def visited(self):
        global error
        try:
            # 访问这个url 去获取数据，去掉空格
            r = requests.get(self.url[0:-1])
            r.raise_for_status()
            c = r.content.decode()

最低0.47元/天解锁文章

沫.....啊

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬虫系列--批量爬取码云开源网站数据

python所需要的库requests —这个库用于访问网站，并获取网页数据bs4 ---- 用户html的标签解析拿出我们所需要的数据threading — 使用多线程，可以让我们的爬虫执行效率变高xlwt — excel表格的操作，用户保存我们所爬下的数据time — 关于时间的操作先初步介绍一下码云这个站，这个站是一个程序员的免费仓库，也被视为开源网站，我们爬下他的...
复制链接

扫一扫

专栏目录