小编说:通过本文,读者可以掌握分析网页的技巧、Python编写网络程序的方法、Excel的操作,以及正则表达式的使用。这些都是爬虫项目中必备的知识和技能。本文选自《Python带我起飞》。
实例描述:通过编写爬虫,将指定日期时段内的全部上市公司股票数据爬取下来,并按照股票代码保存到相应的Excel文件中。
这个案例主要分为两大步骤:
(1)要知道上市公司有哪些;
(2)根据每一个上市公司的股票编号爬取数据。
由于两部分代码相对比较独立,可以做成两个代码文件。一个文件用来爬取股票代码,另一个文件用来爬取股票内容。
1 爬取股票代码
爬取股票代码的基本思路是:
(1)分析网站上的网页源代码,找到目标代码。
(2)利用正则表达式,在整个网页里搜索目标代码,从而提取出所要的信息(股票代码)。
有关金融证券领域的网站一般都会有上市公司的股票代码信息。随便找一个即可。
1.1 找到目标网站
1.2 打开调试窗口,查看网页代码
保持当前浏览器窗口为活动页面,按F12键显示出网页的源代码调试窗口,单击调试窗口的Element按钮,可以看到页面的HTML代码。