空气质量数据网页爬虫加数据处理

最新推荐文章于 2024-03-22 08:10:20 发布

i_superman

最新推荐文章于 2024-03-22 08:10:20 发布

阅读量4.7k

点赞数 1

文章标签：数据爬虫数据可视化图像处理空气污染指数

本文链接：https://blog.csdn.net/i_superman/article/details/38740561

版权

Python这门语言因其简单强大已经火了很久了，但我接触的比较晚，前几个月因为一篇博客开始初步了解这门语言，并且之后模仿某位北邮的前辈的微博写了一个新浪微博的爬虫

这里给出链接：python编写的新浪微博爬虫

当时为了能够顺便把从微博上抓下来的数据存储起来，顺便装了MySQL，之所以用MySQL，主要是因为Python支持MySQL的插件比较好找，比SQLserver好找一些，不过本人对数据库了解比较少，顺便学习了一些数据库方面的简单操作。

写好之后运行起来发现有些问题，主要是新浪微博的服务器对访问次数和访问频率有限制，以至于我下载了一些数据后，服务器会自动屏蔽不再传数据给我，当时挺困惑，网上有人说让程序睡一段时间再继续抓数据，当时也请教了北邮的前辈，也没给我一个明确的答复，也或许是自己写的问题，所以读到这里的朋友也可以提想法哈。或者到我微薄上留言：http://weibo.com/u/1820299335

---------------------------------------------------------分割线-----------------------------------------------

最近看国内天气质量堪忧，所以心血来潮想要再写个程序把空气质量数据爬下来分析一下，于是开始动手，由于之前写新浪微博爬虫的经验，这次比较快，因为不像新浪微博需要模拟用户登录，中华人民共和国环境保护部--数据中心的网页比起微博还算简单，所以很快代码就写好了，期间由于正则表达式运用不熟练，在抓取城市名称和污染指数时遇到点小麻烦，网页的html代码如下：

<td οnmοuseοver="report1664549over()" class="report1_4" style="color:#00A7D1;"><a href="http://datacenter.mep.gov.cn/report/air_daily/
airDair

最低0.47元/天解锁文章

i_superman

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
7
评论
空气质量数据网页爬虫加数据处理

Python这门语言因其简单强大已经火了很久了，但我接触的比较晚，前几个月因为一篇博客开始初步了解这门语言，并且之后模仿某位北邮的前辈的微博写了一个新浪微博的爬虫这里给出链接：python编写的新浪微博爬虫当时为了能够顺便把从微博上抓下来的数据存储起来，顺便装了MySQL，之所以用MySQL，主要是因为Python支持MySQL的插件比较好找，比SQLserver好找一些，不过本人对数据库
复制链接

扫一扫