盘点一个基金数据的Python网络爬虫案例

最新推荐文章于 2024-11-12 12:14:17 发布

Python进阶者

最新推荐文章于 2024-11-12 12:14:17 发布

阅读量605

点赞数

CC 4.0 BY-SA版权

文章标签： python 爬虫开发语言

原文链接：https://mp.weixin.qq.com/s?__biz=MzU3MzQxMjE2NA==&mid=2247510137&idx=1&sn=99ce4d713b8fe6ceed22af0293e44241&chksm=fdb1ad83047836d326f303ef7e3b8ad767b42847a740f77c9ee0e8d81115cbf7291c1ab3b79a&scene=126&sessionid=0

大家好，我是皮皮。

一、前言

前几天在Python最强王者交流群【哎呦喂是豆子～】问了一个Python网络爬虫问题，一起来看看吧。问题描述：

大佬们这个13位数字怎么构造呀找不到规律试了在第一页的url基础上加数字也是不行

1、网站链接：http://quote.eastmoney.com/center/gridlist.html#fund_etf

2、需求：获取ETF基金数据（代码、名称这2列数据）

3、带push字眼的链接存放ETF基金数据（代码、名称这2列数据），但是链接有2个变动的数据，一个是页码，一个是最后的13位数字带push字眼的链接样例：http://85.push2.eastmoney.com/api/qt/clist/get?cb=jQuery1124030358799609457776_1703062450956&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&wbp2u=|0|0|0|web&fid=f3&fs=b:MK0021,b:MK0022,b:MK0023,b:MK0024&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1703062450958

二、实现过程

这里【吴超建】给了一个指导：

这里她给了自己的代码，指定url的数据获取（可获取），如下：

import requests,json
import pandas as pd

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:120.0) Gecko/20100101 Firefox/120.0'}
url = 'http://89.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112406545446716331029_1703061927055&pn=3&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&wbp2u=|0|0|0|web&fid=f3&fs=b:MK0021,b:MK0022,b:MK0023,b:MK0024&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1703061927065'
resp = requests.get(url,headers = headers,timeout =10).text
table = resp.replace('jQuery112406545446716331029_1703061927055(','').replace(')','').replace(';','')
dict_data = json.loads(table)
df = pd.json_normalize(data = dict_data['data']['diff'])
df[['f12','f14']]

但是抓取多页的数据（不成功），代码如下：

number = []
i = 0
n = 44
j = 1703054636319
while i < n:
    j += 5
    number.append(j)
    i += 1
df_all = []
for i,j in zip (range(1,45),number):
    url = f'http://85.push2.eastmoney.com/api/qt/clist/get?cb=jQuery1124030358799609457776_1703062450956&pn={i}&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&wbp2u=|0|0|0|web&fid=f3&fs=b:MK0021,b:MK0022,b:MK0023,b:MK0024&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_={j}'
    resp = requests.get(url,headers = headers,timeout =10).text
    table = resp.replace('jQuery112404551488490763843_1703043849281(','').replace(')','').replace(';','')
    df = pd.json_normalize(data = dict_data['data']['diff'])
    df_1 = df[['f12','f14']]
    df_all.append(df_1)
all_table = pd.concat(df_all)

后来【猫药师Kelly】指出：你们想复杂了，豆子要的数据在第一页就全部给出了。

代码运行之后，结果如下：

url = "http://55.push2.eastmoney.com/api/qt/clist/get?cb=jQuery112402201018241113597_1703065790029&pn=1&pz=20&po=1&np=1&ut=bd1d9ddb04089700cf9c27f6f7426281&fltt=2&invt=2&wbp2u=|0|0|0|web&fid=f3&fs=b:MK0021,b:MK0022,b:MK0023,b:MK0024&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f15,f16,f17,f18,f20,f21,f23,f24,f25,f22,f11,f62,f128,f136,f115,f152&_=1703065790075"

headers = {
    'Referer': 'http://quote.eastmoney.com/center/gridlist.html',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}

proxies = {'http': '','https': ''}

res = requests.get(url, headers=headers, proxies=proxies)

顺利地解决了粉丝的问题。