多线程+代理池爬取天天基金网、股票数据(无需使用爬虫框架)

最新推荐文章于 2025-03-11 17:22:17 发布

云外孤鸟

最新推荐文章于 2025-03-11 17:22:17 发布

阅读量6.9k

点赞数 7

文章标签： python 爬虫多线程基金股票

本文链接：https://blog.csdn.net/qq_33825817/article/details/88857164

版权

本文介绍了如何手动编写多线程爬虫爬取天天基金网的数据，通过分析网站结构，利用IP代理池规避反爬策略。采用Python的queue进行线程间同步，保证数据完整性，最终将数据存储为CSV格式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

简介

提到爬虫，大部分人都会想到使用Scrapy工具，但是仅仅停留在会使用的阶段。为了增加对爬虫机制的理解，我们可以手动实现多线程的爬虫过程，同时，引入IP代理池进行基本的反爬操作。

本次使用天天基金网进行爬虫，该网站具有反爬机制，同时数量足够大，多线程效果较为明显。

技术路线

IP代理池
多线程
爬虫与反爬

编写思路

首先，开始分析天天基金网的一些数据。经过抓包分析，可知：
./fundcode_search.js包含所有基金的数据，同时，该地址具有反爬机制，多次访问将会失败的情况。
同时，经过分析可知某只基金的相关信息地址为:fundgz.1234567.com.cn/js/ + 基金代码 + .js
分析完天天基金网的数据后，搭建IP代理池，用于反爬作用。点击这里搭建代理池，由于该作者提供了一个例子，所以本代码里面直接使用的是作者提供的接口。如果你需要更快速的获取到普匿IP，则可以自行搭建一个本地IP代理池。

    # 返回一个可用代理，格式为ip:端口
    # 该接口直接调用github代理池项目给的例子，故不保证该接口实时可用
    # 建议自己搭建一个本地代理池，这样获取代理的速度更快
    # 代理池搭建github地址https://github.com/1again/ProxyPool
    # 搭建完毕后，把下方的proxy.1again.cc改成你的your_server_ip，本地搭建的话可以写成127.0.0.1或者localhost
    def get_proxy():
        data_json = requests.get("http://proxy.1again.cc:35050/api/v1/proxy/?type=2").text
        data = json.loads(data_json)
        return data['data']['proxy']

搭建完IP代理池后，我们开始着手多线程爬取数据的工作。一旦使用多线程，则需要考虑到数据的读写顺序问题。这里使用python中的队列queue进行存储基金代码，不同线程分别从这个queue中获取基金代码，并访问指定基金的数据。由于queue的读取和写入是阻塞的，所以可以确保该过程不会出现读取重复和读取丢失基金代码的情况。

    # 将所有基金代码放入先进先出FIFO队列中
    # 队列的写入和读取都是阻塞的，故在多线程情况下不会乱
    # 在不使用框架的前提下，引入多线程，提高爬取效率
    # 创建一个队列
    fund_code_queue = queue.Queue(len(fund_code_list)

最低0.47元/天解锁文章