我们可以将所有的股票代码存放在一个列表中,剩下的就是找一个网站,循环的去将每一只股票的数据取出来咯。
这个网站小编已经找好了,是同花顺,链接: http://stockpage.10jqka.com.cn/000001/ 。
想必各位聪明的同学已经发现了,这个链接中的 000001 就是股票代码。
我们接下来只需要拼接这个链接,就能源源不断的获取到我们想要的数据。
首先,还是先介绍一下本次实战用到的请求库和解析库为: Requests 和 pyquery 。数据存储最后还是落地在 Mysql 。
获取股票代码列表
第一步当然是先构建股票代码列表咯,我们先定义一个方法:
def get_stock_list(stockListURL):
r =requests.get(stockListURL, headers = headers)
doc = PyQuery(r.text)
list = []
获取所有 section 中 a 节点,并进行迭代
for i in doc(‘.stockTable a’).items():
try:
href = i.attr.href
list.append(re.findall(r"\d{6}", href)[0])
except:
continue
list = [item.lower() for item in list] # 将爬取信息转换小写
return list
将上面的链接当做参数传入,大家可以自己运行下看下结果,小编这里就不贴结果了,有点长。。。
详情的数据看起来好像是在页面上的,但是,实际上并不在,实际最终获取数据的地方并不是页面,而是一个数据接口。
http://qd.10jqka.com.cn/quote.php?cate=real&type=stock&callback=