写这篇文章纯属自娱自乐。

主要是近期在自学如何利用Python解决IT运维的一些问题时,总是不得其门而入,为了增加学习兴趣,就想通过完成一个小小有趣的爬虫程序激励下自己,同时也把这次经历跟各位道友分享下。

Technorati Tags: Python,爬网,×××,数据,夏明亮

首先申明,本人不是专职coding的,所以,代码部分如果不符合专业审美,还请多多包涵;俺就是纯粹以实习那目标为基础的小白一枚;思路为先,抛砖引玉~


步骤一:利用搜索引擎找到你需要的信息的网页资源

1. 打开百度搜索”×××网”

clip_image003[4]

第一个链接就是中彩网的官网;打开网站;在导航栏找到双色球并打开链接。

clip_image006[4]

再找到开奖数据

clip_image009[4]

找到往期回顾。

clip_image012[4]

可以看到这就是我们需要获取的信息。

clip_image015[4]

步骤二:分析网页源代码。

在网页上右击——>查看源代码或者直接按F12键。

clip_image019[4]

借助浏览器我们很方便就可以得到网页的源码及网页中显示的数据对应的原始值。

接下来我们再看这个网页是不是就是简简单单的纯静态页面呢?怎么看呢?

1. 当前页面的网址(www.zhcw.com/ssq/kaijiangshuju/#)

2. 我们再点击下这个页面的下面几个位置

clip_image022[4]

3. 看到其实他们的网址是不变的(www.zhcw.com/ssq/kaijiangshuju/#);这说明了什么?说明这些内容其实是嵌套在网页中网页文件。

那么问题来了?如何能获得嵌套网页的真实网址呢?这里我们还是要借助我们的浏览器工具(开发者工具F12)

先F12;找到Network;再单击页面山的“往期回顾”

clip_image026[4]

得到这些交互数据: