广州地震了!地震到底离我们有多近,Python 爬虫带你了解

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

接天莲叶无穷碧,映日荷花别样红。

这周看到了两个地震新闻,一个是广东广州增城的,另一个是台湾的,因为本人身在广州,而且对于广佛这边的来说地震其实挺突然的对于我们来说,基本在广佛这边很少出现地震,所以我看到广州增城地震也挺吃惊,然后就萌生了爬取地震数据的想法,想了解一下地震高发地。


先来看一个新闻,来自新浪微博官方用户:中国地震台网速报的微博内容,在七夕前一天8月6号10点49分广东广州增城发生2.7级地震,震源深度3千米。


640?wx_fmt=png


看到这新闻后,我在想的是,哪里可以实时知道地震情况及其相关具体数据呢?哪里可以知道过往的地震历史数据呢?打开谷歌,搜索发现了一个网站:中国地震台网 http://news.ceic.ac.cn/index.html ,这里可以显示查看最新的全球地震信息,还支持地图显示地震信息,历史查询等。


640?wx_fmt=png


毫无疑问,这句是我们需要的网站,那么我们接下来就来实现最近一年全球所有的地震信息爬取。


网站分析


首先,根据我们设计的需求,我们需要爬取最近一年的所有地震信息,我们找到快捷查询,按时间选择最近一年内地震,即可显示最近一年地震信息。


640?wx_fmt=png


可以看到一共有59页,所以我们需要分析翻页URL。


640?wx_fmt=png


试着点击第二页,第三页或尾页,我们可以发现网站的URL是固定不变的,我们大概率可以确定这些数据的加载来源都是通过后台js加载得到的,我门进行再次验证。


我们f12进入谷歌开发者模式,查看选择第二页对应的Elements模块的内容,可以看出 href="javascript:void (0)",很明显是通过js加载的。


640?wx_fmt=png


我们还可以把网页设置启用或禁用JavaScript,可通过浏览器设置,也可以通过谷歌浏览器插件实现,推荐一下我使用的插件Toggle JavaScript。


640?wx_fmt=png


比如,我们点一下这个插件便签然后再刷新网站试试,根据页面显示内容足以证明我们的猜想。


640?wx_fmt=png


接下来,我们就需要找到它的加载js内容文件或者使用最直接的selenium进行实现。


我们在开发者模式中选择Network模块点击XHR,然后点击第二页,第三页,多点几页,在这个过程中你会发现每点击一页增加一个文件。


640?wx_fmt=png


可以基本确定,这就是我们需要的,点击进去查看,Response有需要的内容,把链接复制到浏览器打开查看。


640?wx_fmt=png


640?wx_fmt=png


可以明显看出,这就是我们需要的数据,那么我们可以知道,每一页就是一个这个文件内容,我们只要构造59个这样的URL链接进行爬取即可。


URL链接为:

  • http://www.ceic.ac.cn/ajax/speedsearch?num=6&&page=1&&callback=jQuery18009545762559523003_1565244345462&_=1565244347921

  • http://www.ceic.ac.cn/ajax/speedsearch?num=6&&page=2&&callback=jQuery18009545762559523003_1565244345462&_=1565244352936

  • http://www.ceic.ac.cn/ajax/speedsearch?num=6&&page=3&&callback=jQuery18009545762559523003_1565244345462&_=1565244355966

可以看出,链接中page决定的是页数,后面的_是动态的就是可变的,其他都是不变的,看到这一串东西,如果有经验一看就知道是时间戳了,我们来验证下。


640?wx_fmt=png


我们可以试着把1565244347921 这串数据变成当前时间看看,这就是我刚刚登录的时间。


640?wx_fmt=png


分析到这里,我们可以构造爬取URL了,接下来我们进行爬虫代码实现吧。


小提示,其实根据我的验证

  • http://www.ceic.ac.cn/ajax/speedsearch?num=6&&page=1&&callback=jQuery18009545762559523003_1565244345462&_=1565244347921

  • http://www.ceic.ac.cn/ajax/speedsearch?num=6&&page=1


这两个URL返回的内容是完全一样的,所以我要说啥,你懂得!


爬虫代码实现


爬虫实现的基本三步:

  1. 发起请求,获取网页

  2. 解析提取网页内容

  3. 数据存储


验证是否可获得内容,requests发起请求,cchardet的作用是判断编码类型。


640?wx_fmt=png


第一步,requests发起请求,进行网页下载。主要定义了ua用户代理,处理了编码类型问题,做了个网页状态码验证是否为200成功,成功则返回页面内容信息。


640?wx_fmt=png


第二步,进行返回内容解析,很简单,直接把它转为字典形式,根据key提取value即可完成内容解析工作。


640?wx_fmt=png


第三步,进行数据保存为csv文件格式。


640?wx_fmt=png


最后,构造59页URL进行爬取即可。


640?wx_fmt=png


爬取结果如下:


640?wx_fmt=png


其实还有个更方便直接的方法,就是这个网站还是很友好的,他可以直接保存数据到本地,下载xls数据文件。


640?wx_fmt=png


不过,这样的话有些信息就得不到了,根据个人所需选择数据获取方式即可。当然这里只是爬取了最近一年的全球地震数据,你也可以根据自己定义时间爬取更多,方式是一样的,授人以鱼不如授人以渔,“渔“已经教给你了,接下来就很容易了。下图就是历史查询,根据自己定义时间等进行数据显示后进行爬取即可。


640?wx_fmt=png


数据可视分析


首先,查看一下数据。


640?wx_fmt=png


近一年全球震级级别最高的十个地方


先来看一看近一年全球震级级别最高的十个地方是哪些,关键代码编写如下:


640?wx_fmt=png


结果可视化如下图:


640?wx_fmt=png


可以看到,地震级别最高的分别是斐济群岛地区和秘鲁北部分别达到了8.1级和7.8级,值得一说的是第三名也是斐济群岛地区,地震级别同样高达7.8级,其他就是近一年全球地震级别top10都是外国地区。


近一年每个月份发生地震数量对比情况


先来看一看近一年每个月份发生地震数量都是多少,关键代码编写如下:


640?wx_fmt=png


结果可视化如下图:


640?wx_fmt=png


可以看到,除去前面的不看,最少发生地震的9月份也达到了70次,最高的6月份和8月份分别达到了恐怖的144和143次之多,也就是等于每一天发生4.8次左右。其中,可以得到近一年中每月平均发生100次左右,平均每天发生3.3次左右。


统计近一年中同一地方发生地震的次数


先来看一看近一年中同一地方发生地震的次数都是多少,关键代码编写如下:


640?wx_fmt=png


结果可视化如下图:


640?wx_fmt=png


可以看到,近一年同一地方发生地震次数最多的前十名有9个都是我国的地区,看来我国真是地震高发区啊,而且前两名都是中国四川的,希望地震少点,伤亡少点。


统计近一年中地震级别高低具体的次数


先来看一看近一年中地震级别高低具体的次数都是多少,关键代码编写如下:


640?wx_fmt=png


结果可视化如下图:


640?wx_fmt=png


可以看到,最近一年地震级别的占比来看,低级别地震占大多数,而且3.0级地震占了近一年的10.9%,前10名中都不会超过6级地震,大多数围绕在3级左右。


制作近一年地震高频地区词云分析图


关键代码如下:


640?wx_fmt=png


词云实现图为:


640?wx_fmt=png


上,我们爬取并分析了近一年全球的地震信息,让你感受下地震到底离你有多近,中国在地震高频地区top10中占了9个位置。

文中完整代码和素材,在后台回复完整关键词【地震爬虫】获得。

------------------ End -------------------

640?wx_fmt=png

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值