文章目录
股票爬虫(第一篇:分析)
1 前言
本教程仅为学习研究,请勿拿去干坏事。博主是大数据分析专业的,当前还在做毕设。数据源为东方财富网的api,主要爬取日K、周K、月K,以及分钟K线。
2 分析网页
作为程序员,分析是家常便饭,你得先去看看网页给你什么了
第一步:进入到需要爬取信息的页面
这就是我们要分析的页面
第二步:打开Chrome的调试工具(F12)
第三步:看看网页会给你发什么消息
一个网页先给你发一堆消息,发完之后就会停下,那么这时候我们就要开始操作了😏
刷新网页,等待下图不动了再操作
以下是代表网页给你发送的信息资源
在此页面点击日K
观察控制台
选取
鼠标点一下给你发的新内容,会出现这个
你把它拉开,直到覆盖所有
然后你就会看到以下7个内容
逐步、逐个分析,直到……
我们先看get开头的,因为这个是向服务的请求(分get和post方法)
点进去分析一波
你会发现,好家伙,我要的是日K,服务器给我发的啥😡
很明显不是这个,那么我们换一个get看一看
直到你找到想要的信息
找到了!
第四步:查看请求头,并分析URL
URL分析
http://push2his.eastmoney.com/api/qt/stock/kline/get?cb=jQuery11240455198475929842_1619140536920&fields1=f1%2Cf2%2Cf3%2Cf4%2Cf5%2Cf6&fields2=f51%2Cf52%2Cf53%2Cf54%2Cf55%2Cf56%2Cf57%2Cf58%2Cf59%2Cf60%2Cf61&ut=7eea3edcaed734bea9cbfc24409ed989&klt=101&fqt=1&secid=0.000001&beg=0&end=20500000&_=1619140536941
把以上链接可以直接放到浏览器地址栏上面
他会给你返回一大堆数据(这类数据是以Json的形式给你的)
Tips:😏如果你显看的眼累,可以→浏览器调试工具F12→Network→刷新网页→点击资源包→preview
这里什么信息是对我们有用的呢咱们可以用排除法,get方法是用&分割参数的,那么咱们可以看到上面的URL有cb、fields1、fields2、ut、klt、fqt、secid(这明显就是我的股票代码)、beg、end
排除法:一个一个参数的删除,看他还会不会给你那些信息(你也可以点下周K,对比对比URL的区别)
最后清洗出来的URL是这样的
http://push2his.eastmoney.com/api/qt/stock/kline/get?fields1=f1%2Cf2%2Cf3%2Cf4%2Cf5%2Cf6&fields2=f51%2Cf52%2Cf53%2Cf54%2Cf55%2Cf56%2Cf57%2Cf58%2Cf59%2Cf60%2Cf61&klt=101&fqt=1&secid=0.000001&beg=0&end=20500000
你会发现klt=101是日K,klt=102是周K,secid是股票代码,end是最后的日期
f61&klt=101&fqt=1&secid=0.000001&beg=0&end=20500000
你会发现klt=101是日K,klt=102是周K,secid是股票代码,end是最后的日期
知道了该爬取的URL之后,我们就要开始编写代码了