空气质量数据网页爬虫加数据处理

Python这门语言因其简单强大已经火了很久了,但我接触的比较晚,前几个月因为一篇博客开始初步了解这门语言,并且之后模仿某位北邮的前辈的微博写了一个新浪微博的爬虫

这里给出链接:python编写的新浪微博爬虫

当时为了能够顺便把从微博上抓下来的数据存储起来,顺便装了MySQL,之所以用MySQL,主要是因为Python支持MySQL的插件比较好找,比SQLserver好找一些,不过本人对数据库了解比较少,顺便学习了一些数据库方面的简单操作。

写好之后运行起来发现有些问题,主要是新浪微博的服务器对访问次数和访问频率有限制,以至于我下载了一些数据后,服务器会自动屏蔽不再传数据给我,当时挺困惑,网上有人说让程序睡一段时间再继续抓数据,当时也请教了北邮的前辈,也没给我一个明确的答复,也或许是自己写的问题,所以读到这里的朋友也可以提想法哈。或者到我微薄上留言:http://weibo.com/u/1820299335

---------------------------------------------------------分割线-----------------------------------------------

最近看国内天气质量堪忧,所以心血来潮想要再写个程序把空气质量数据爬下来分析一下,于是开始动手,由于之前写新浪微博爬虫的经验,这次比较快,因为不像新浪微博需要模拟用户登录,中华人民共和国环境保护部--数据中心 的网页比起微博还算简单,所以很快代码就写好了,期间由于正则表达式运用不熟练,在抓取城市名称和污染指数时遇到点小麻烦,网页的html代码如下:

<td οnmοuseοver="report1664549over()" class="report1_4" style="color:#00A7D1;"><a href="http://datacenter.mep.gov.cn/report/air_daily/
airDair
  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值