爬东方财富网部分数据
需要的数据包-re、json、requests、panda 。
1,分析网站
找到url
def get_data(page=11):
df_list=[]
for index range(1,page): #前十页的数据, 注意改url链接里面的index。
url=‘要爬取的链接’
headers={
‘Referer’:链接, #防盗链
‘user-agent’:链接 #用户代理,身份证
}
resp=requets.get(url,headers=headers)#请求和响应结果
print(‘resp.text’) #打印文本结果
2,数据解析
ht=resp.text #接受返回的消息
ret=re.findall(’(.?)’,ht) #.?-万能的匹配方式,获取括号里面的需要的数据
print(‘ret’)
①类型转换
datas=json.loads(ret[0])[‘Data’][‘LSZJList’] #变成字典
print (‘datas’)
df=Pd.DataFrame(datas) #用panda从列表嵌套了字典转化成常见的表格式
print (‘df’)
df_list.append(df) #讲获取的表添加到list里面
3,保存数据
df_data=Pd.concat(de_list) #合并列表
df_data.to_csv(‘财富网数据.csv’,index=False) #保存数据并删除索引。
get_data()
最后结果部分数据图附