用爬虫搭建自己的行情数据库

最新推荐文章于 2022-09-25 15:00:17 发布

渡边君

最新推荐文章于 2022-09-25 15:00:17 发布

阅读量1.5k

点赞数 1

本文链接：https://blog.csdn.net/baidu_41902768/article/details/84074339

版权

本文讲述了使用Python爬虫从证券之星和东方财富网获取A股股票信息，应对反爬虫策略，以及将数据存储到数据库的过程。通过设置headers、随机代理以及Fiddler抓包工具来解析真实数据请求URL，最终实现动态插入数据库，解决数据重复和时间序列问题。

摘要由CSDN通过智能技术生成

我所选择的网址是证券之星，首先想做的第一个函数的功能是爬取 A 股的股票名单和代号。下面的图片是第二页，ranklist_a_3_1_2 中的 2 很显然表示的是第二页，通过一个循环就可以获取所有的 html 内容。

这里使用一个新的库 bs4，用它可以很轻易地把一个 html 对象转化成 xml 对象，也就是一个树状的由很多节点组成结构，我们可以用获取某一节点的子节点、兄弟节点、父节点的方式来寻找我们想要的标签，查看 string 属性查看标签中的内容，至于属性就用 .+ 属性名去获取。通过查看源代码可以看到数据包裹在一个 tbody 标签中的若干个 tr 标签中，使用 bs4 的几个简单方法就可以获取。问题在于获取了一两页之后就停住了，有时可以获取上千个，但是仍然会停住而无法全部获取，设置 try 也无法捕获异常。应该是被该网站一些反爬虫的机制拦截了，所以就要考虑如何应对反爬虫。

通过查资料了解到，可以通过设置请求头 headers 中的 user-agent 来伪装该请求是来自浏览器而不是 python，来避开一部分的反爬虫。通过添加如下的内容，用 random.choice 来随机选择其中一个作为我们请求头的参数，然后使用循环和异常处理来避免未知的问题使得程序中止。

UserAgentPool = ['Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50',
	'Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)',
	'Mozilla/5.0 (compatible; MSIE 10.0; Macintosh; Intel Mac OS X 10_7_3; Trident/6.0)',
	'Opera/9.80 (X11; Linux i686; U; ru) Presto/2.8.131 Version/11.11',
	'Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11',
	'Mozilla/5.0 (Windows NT 6.2; Win64; x64; rv:16.0.1) Gecko/20121011 Firefox/16.0.1']

类似还可以设置代理，可以使用 http://www.xicidaili.com 提供的免费 api 接口来获取可用的 ip。不过不知出于什么原因，接口无法使用，所以还是自己爬。通过网页源代码可以看到，表格中的数据包裹在一个 tbody 标签中，但是我们在获取的相应的 text 属性中却无法找到 tbody 标签。说明了，在浏览器上查看网页源代码，只是辅助我们处理在 python 获取到的相应中的信息时可以更快的定位数据的位置。