大家好,我是小F~
这两年AI可以说是非常火,尤其是AIGC领域。
而这其中很多都是基于Python实现的,比如ChatGPT、AI绘画、声音克隆等等。
对于普通人来说,想直接学习这些高难度的Python项目,还是比较困难的。
小F是非常建议大家学Python,可以从Python爬虫入门。
相对来说简单一点,可以通过学习爬虫案例来入门Python,为了以后学AI打下基础。
今天就给大家介绍一个百度指数数据爬取的实战案例。
其中为了保证数据采集的稳定与高效,小F使用了亮数据的IP代理。
在众多的IP代理提供商中,亮数据(Bright Data) 以其稳定、高效和专业的服务受到了广大用户的青睐,这也是小F选择它的原因。
不仅提供代理服务,还有一些数据集。
首次注册,提供5刀的免费额度,还是不错的。
大家要体验的,可以访问下方二维码,免费领取(联系客服开通免费试用),以备不时之需(比如运行爬虫代码IP被封)。
下面就来看一下爬虫实战案例吧~
发现百度指数的加密方式又变了,所以参考知乎一位大佬的代码。
完整代码如下。
import json
import requests
import urllib.request
from datetime import datetime
from datetime import timedelta
# 获取IP代理
def get_proxy():
opener = urllib.request.build_opener(
urllib.request.ProxyHandler(
{'http': 'http://brd-customer-hl_5dede465-zone-try-country-cn:pdqt396jal8m@brd.superproxy.io:22225',
'https': 'http