功能描述
目标:获取上交所和深交所所有股票的名称和交易信息
输出:保存到文件中
技术路线:requests‐bs4‐re
候选数据网站的选择
选取原则:股票信息静态存在于HTML页面中,非js代码生成
没有Robots协议限制
选取方法:浏览器F12,源代码查看等
选取心态:不要纠结于某个网站,多找信息源尝试
具体选取过程请看课程视频:北京理工大学公开课《Python网络爬虫与信息提取》
数据网站的确定
获取股票列表:
东方财富网:http://quote.eastmoney.com/stocklist.html
获取个股信息:
百度股票:https://gupiao.baidu.com/stock/
单个股票:https://gupiao.baidu.com/stock/sz002439.html
查看东方财富网的源代码,可以发现个股链接在标签 <a> <script type="math/tex" id="MathJax-Element-4"></script> 中,并且链接都是在东方财富网的链接后面加上 sh(上海) 或者 sz(深圳) 再加上 6 个数