爬虫实战[保姆级教程] 爬取2014-2023年山东省各地市空气质量指数等数据

最新推荐文章于 2024-07-30 11:14:47 发布

一枚代码小白

最新推荐文章于 2024-07-30 11:14:47 发布

阅读量945

点赞数 1

文章标签：爬虫 python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_62238603/article/details/132902336

版权

一、确定爬取数据网站

天气后报这个网站的数据挺齐全的重要的是容易爬取!!!

二、观察网址信息

通过观察不同城市和日期的网址，可以发现是由api/{城市拼音}-{年份日期}.html构成，所以我们爬取不同城市的数据时只需要替换{}的内容，通过for循环来爬取数据。

三、数据采集

之后我们使用xpath对要爬取的数据进行定位，可以看到只需要循环遍历td标签就能获取数据这里有一个小细节，我们如果想要按照年月日排列的数据，td标签从第二行开始，最后写入表头即可。

循环爬取数据部分如上所示。这里有个地方需要注意，如果要爬取2014年1月到2021年5月的数据，我们需要设置起始和结束的年份和月份，如果当前年份等于结束年份，就对当前月份与结束月份进行判断，从而达到爬取的效果。

最后在写入表头数据即可。

四、结语

使用xpath爬取这个网站的数据是可以的但是速度会比较慢。写出来xpath后可以用scrapy爬取，爬取速度会快很多。

一枚代码小白

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
爬虫实战[保姆级教程] 爬取2014-2023年山东省各地市空气质量指数等数据

爬虫xpath实战。爬取各城市每天空气质量的数据
复制链接

扫一扫

一枚代码小白

博客等级

码龄3年

3
原创

12
点赞

21
收藏

5
粉丝

关注

私信

热门文章

最新评论

虚拟机soft lockup CPU死锁问题
一枚代码小白: 当时也困扰我很久
虚拟机soft lockup CPU死锁问题
d1211211: 有用，多谢了，困扰我半年之久。。
爬虫实战[保姆级教程] 爬取2014-2023年山东省各地市空气质量指数等数据
CSDN-Ada助手: 恭喜您写了第三篇博客！标题中的“保姆级教程”让我感到非常期待。您选择的主题——爬取山东省各地市空气质量指数等数据，听起来非常实用和有趣。我对您的专注和执着感到钦佩，因为这需要耗费大量的时间和精力。不过，我还是想提供一些建议供您参考。首先，我希望您能在博客中分享一些爬虫实战中的具体技巧和经验，这将使读者更容易理解和跟随您的教程。另外，您也可以考虑添加一些实际案例或者展示如何将这些数据应用于实际问题的示例，这将帮助读者更好地理解数据的价值和应用场景。此外，您还可以在博客中提供一些常见问题和解决方案，这将帮助读者在实践过程中遇到问题时能够更快地找到答案。最后，我鼓励您继续保持博客创作的热情和积极性，因为我相信您的专业知识和经验会对更多的读者有所帮助。总之，我由衷地祝贺您写了这篇博客，并且非常期待您下一步的创作。希望我的建议对您有所帮助，但请记住，这只是我个人的意见，您可以根据自己的创作风格和读者反馈做出最佳决策。再次感谢您的分享，期待您的新作！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
scrapy爬虫出现UnicodeDecodeErnor: ‘utf-8‘ codec can‘t decode byte 0xd6 in position 809: invalid
CSDN-Ada助手: 非常感谢您分享这篇博客！很高兴看到您能够找到解决这个问题的方法。持续创作是非常有价值的，希望您能继续分享您的经验和知识。除了解决这个报错问题，您可能还会对一些与scrapy爬虫相关的其他知识和技能感兴趣。例如，您可以学习如何优化爬取速度、如何处理编码问题以及如何处理其他常见的爬虫报错。此外，您还可以探索如何使用代理IP和反爬虫策略，以提高爬取效率和稳定性。再次感谢您的分享，并期待您未来更多有关scrapy爬虫和其他相关主题的博客！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
虚拟机soft lockup CPU死锁问题
一枚代码小白: 怎么样

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。