2021-10-20

吾乃蟑螂恶霸

于 2021-10-20 22:17:28 发布

阅读量57

点赞数 1

分类专栏：笔记

本文链接：https://blog.csdn.net/m0_62920807/article/details/120873829

版权

笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

爬东方财富网部分数据

需要的数据包-re、json、requests、panda 。
1，分析网站
找到url
def get_data(page=11):
df_list=[]
for index range(1,page): #前十页的数据, 注意改url链接里面的index。
url=‘要爬取的链接’
headers={
‘Referer’:链接, #防盗链
‘user-agent’:链接 #用户代理，身份证
}
resp=requets.get(url,headers=headers)#请求和响应结果
print(‘resp.text’) #打印文本结果
2，数据解析
ht=resp.text #接受返回的消息
ret=re.findall(’(.？)’,ht) #.？-万能的匹配方式，获取括号里面的需要的数据
print(‘ret’)
在这里插入图片描述
①类型转换
datas=json.loads(ret[0])[‘Data’][‘LSZJList’] #变成字典
print (‘datas’)

df=Pd.DataFrame(datas) #用panda从列表嵌套了字典转化成常见的表格式
print (‘df’)

df_list.append(df) #讲获取的表添加到list里面
3，保存数据
df_data=Pd.concat(de_list) #合并列表
df_data.to_csv(‘财富网数据.csv’,index=False) #保存数据并删除索引。
get_data()

最后结果部分数据图附
在这里插入图片描述

吾乃蟑螂恶霸

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-10-20

爬东方财富网部分数据需要的数据包-re、json、requests、panda 。1，分析网站找到urldef get_data(page=11):df_list=[]for index range(1,page): #前十页的数据, 注意改url链接里面的index。url=‘要爬取的链接’headers={‘Referer’:链接, #防盗链‘user-agent’:链接 #用户代理，身份证}resp=requets.get(url
复制链接

扫一扫