用爬虫搭建自己的行情数据库

本文讲述了使用Python爬虫从证券之星和东方财富网获取A股股票信息,应对反爬虫策略,以及将数据存储到数据库的过程。通过设置headers、随机代理以及Fiddler抓包工具来解析真实数据请求URL,最终实现动态插入数据库,解决数据重复和时间序列问题。
摘要由CSDN通过智能技术生成

          我所选择的网址是证券之星,首先想做的第一个函数的功能是爬取 A 股的股票名单和代号。下面的图片是第二页,ranklist_a_3_1_2 中的 2 很显然表示的是第二页,通过一个循环就可以获取所有的 html 内容。

        这里使用一个新的库 bs4,用它可以很轻易地把一个 html 对象转化成 xml 对象,也就是一个树状的由很多节点组成结构,我们可以用获取某一节点的子节点、兄弟节点、父节点的方式来寻找我们想要的标签,查看 string 属性查看标签中的内容,至于属性就用 .+ 属性名去获取。通过查看源代码可以看到数据包裹在一个 tbody 标签中的若干个 tr 标签中,使用 bs4 的几个简单方法就可以获取。问题在于获取了一两页之后就停住了,有时可以获取上千个,但是仍然会停住而无法全部获取,设置 try 也无法捕获异常。应该是被该网站一些反爬虫的机制拦截了,所以就要考虑如何应对反爬虫。

        通过查资料了解到,可以通过设置请求头 headers 中的 user-agent 来伪装该请求是来自浏览器而不是 python,来避开一部分的反爬虫。通过添加如下的内容,用 random.choice 来随机选择其中一个作为我们请求头的参数,然后使用循环和异常处理来避免未知的问题使得程序中止。

UserAgentPool = ['Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50',
	'Mozilla/5.0 (Windows; U; MSIE 9.0; Windows NT 9.0; en-US)',
	'Mozilla/5.0 (compatible; MSIE 10.0; Macintosh; Intel Mac OS X 10_7_3; Trident/6.0)',
	'Opera/9.80 (X11; Linux i686; U; ru) Presto/2.8.131 Version/11.11',
	'Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11',
	'Mozilla/5.0 (Windows NT 6.2; Win64; x64; rv:16.0.1) Gecko/20121011 Firefox/16.0.1']

        类似还可以设置代理,可以使用 http://www.xicidaili.com 提供的免费 api 接口来获取可用的 ip。不过不知出于什么原因,接口无法使用,所以还是自己爬。通过网页源代码可以看到,表格中的数据包裹在一个 tbody 标签中,但是我们在获取的相应的 text 属性中却无法找到 tbody 标签。说明了,在浏览器上查看网页源代码,只是辅助我们处理在 python 获取到的相应中的信息时可以更快的定位数据的位置。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值