本文只用来作为教学目的,任何商业用途与作者无关
本文讲解的是如何获取股票的历史数据
这里我们选择的是某财富网进行一个数据采集。
1.先打开该网站,随便输入一只股票进行查询,然后点到日K线,如下图所示
2. 按下F12或者打开开发者工具,切换到网络界面,然后刷新一下网页
3.接下来在网络里面一步步找到后台加载的数据,选择标头查看对应的请求URL
3.1切换到 负载查看请求该网址的时候需要传递的参数
3.2接下来就会发现fields1,fields2等参数等参数都是固定不变的 ,发生变化的只有cb:是jsonp+时间戳构成的字符串,secid由0.+股票代码构成
3.3构造请求URL代码
def __init__(self):
self.start_url = 'http://push2his.eastmoney.com/api/qt/stock/kline/get?'
def structure(self,key):
# self.key=input('请输入想要爬取的股票代码:')
self.key = key
if self.key[0]=='0' or self.key[0]=='3':
self.secid = '0.'+self.key
elif self.key[0]=='6':
self.secid='1.'+self.key
t = time.time()
self.nowTime = int(round(t * 1000))
self.structure_url={
'fields1':'f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f11,f12,f13',
'fields2':'f51,f52,f53,f54,f55,f56,f57,f58,f59,f60,f61',
'beg':'0',
'end':'20500101',
'ut':'fa5fd1943c7b386f172d6893dbfba10b',
'rtntype':'6',
'secid':self.secid,
'klt':'101',
'fqt':'1',
'cb':f'jsonp{self.nowTime}'
}
request_url = self.start_url + urlencode(self.structure_url)
return request_url
3.4最后我们请求构造后的参数,就可以得到数据
4.数据解析,这部分不过多讲解直接看代码
def crawl(self,url):
# print(url)
res = requests.get(url).text
# print(res)
data = json.loads(re.findall('{.+.]}}',res)[0])
klines = data.get('data').get('klines')
name = data.get('data').get('name').replace("*ST","")#因为*ST中的*的不能作为表明,所以要删除掉