2021-10-20

爬东方财富网部分数据

需要的数据包-re、json、requests、panda 。
1,分析网站
找到url
def get_data(page=11):
df_list=[]
for index range(1,page): #前十页的数据, 注意改url链接里面的index。
url=‘要爬取的链接’
headers={
‘Referer’:链接, #防盗链
‘user-agent’:链接 #用户代理,身份证
}
resp=requets.get(url,headers=headers)#请求和响应结果
print(‘resp.text’) #打印文本结果
2,数据解析
ht=resp.text #接受返回的消息
ret=re.findall(’(.?)’,ht) #.?-万能的匹配方式,获取括号里面的需要的数据
print(‘ret’)
在这里插入图片描述
①类型转换
datas=json.loads(ret[0])[‘Data’][‘LSZJList’] #变成字典
print (‘datas’)
在这里插入图片描述
df=Pd.DataFrame(datas) #用panda从列表嵌套了字典转化成常见的表格式
print (‘df’)
在这里插入图片描述
df_list.append(df) #讲获取的表添加到list里面
3,保存数据
df_data=Pd.concat(de_list) #合并列表
df_data.to_csv(‘财富网数据.csv’,index=False) #保存数据并删除索引。
get_data()

最后结果部分数据图附
在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值