多线程+代理池爬取天天基金网、股票数据(无需使用爬虫框架)

本文介绍了如何手动编写多线程爬虫爬取天天基金网的数据,通过分析网站结构,利用IP代理池规避反爬策略。采用Python的queue进行线程间同步,保证数据完整性,最终将数据存储为CSV格式。
摘要由CSDN通过智能技术生成

简介

提到爬虫,大部分人都会想到使用Scrapy工具,但是仅仅停留在会使用的阶段。为了增加对爬虫机制的理解,我们可以手动实现多线程的爬虫过程,同时,引入IP代理池进行基本的反爬操作。

本次使用天天基金网进行爬虫,该网站具有反爬机制,同时数量足够大,多线程效果较为明显。

技术路线

  • IP代理池
  • 多线程
  • 爬虫与反爬

编写思路

  1. 首先,开始分析天天基金网的一些数据。经过抓包分析,可知:
    ./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会失败的情况。

  2. 同时,经过分析可知某只基金的相关信息地址为:fundgz.1234567.com.cn/js/ + 基金代码 + .js

  3. 分析完天天基金网的数据后,搭建IP代理池,用于反爬作用。点击这里搭建代理池,由于该作者提供了一个例子,所以本代码里面直接使用的是作者提供的接口。如果你需要更快速的获取到普匿IP,则可以自行搭建一个本地IP代理池。

    # 返回一个可用代理,格式为ip:端口
    # 该接口直接调用github代理池项目给的例子,故不保证该接口实时可用
    # 建议自己搭建一个本地代理池,这样获取代理的速度更快
    # 代理池搭建github地址https://github.com/1again/ProxyPool
    # 搭建完毕后,把下方的proxy.1again.cc改成你的your_server_ip,本地搭建的话可以写成127.0.0.1或者localhost
    def get_proxy():
        data_json = requests.get("http://proxy.1again.cc:35050/api/v1/proxy/?type=2").text
        data = json.loads(data_json)
        return data['data']['proxy']
  1. 搭建完IP代理池后,我们开始着手多线程爬取数据的工作。一旦使用多线程,则需要考虑到数据的读写顺序问题。这里使用python中的队列queue进行存储基金代码,不同线程分别从这个queue中获取基金代码,并访问指定基金的数据。由于queue的读取和写入是阻塞的,所以可以确保该过程不会出现读取重复和读取丢失基金代码的情况。
    # 将所有基金代码放入先进先出FIFO队列中
    # 队列的写入和读取都是阻塞的,故在多线程情况下不会乱
    # 在不使用框架的前提下,引入多线程,提高爬取效率
    # 创建一个队列
    fund_code_queue = queue.Queue(len(fund_code_list)
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值