python 爬虫抓取网页数据导出excel_小猪的Python学习之旅 —— 14.爬虫实战：抓取豆瓣音乐Top 250数据存到Excel中...

weixin_39671405

于 2020-11-24 01:27:30 发布

阅读量467

点赞数

文章标签： python 爬虫抓取网页数据导出excel

一句话概括本文：

利用Excel存储爬到的抓取豆瓣音乐Top 250数据信息，还有读Excel。

引言：

失踪人口回归，最近比较迷茫，不知道是回头深究Android，还是继续

学Python，Android是旧爱，Python是新欢；Android应用层折腾来

折腾去，无非：改UI，写控件，换下库，换下架构...以前一直想着写

自己的项目，然后各种加东西优化，然后发现自己却没有了当年的热情，

唉！相比Python，随手就是一爬虫，批处理类的脚本，实用性高太多，

只是Python没有引路人，都是自己一点点摸索，见步走步吧！

AAffA0nNPuCLAAAAAElFTkSuQmCC

之前在写爬小姐姐脚本时候，就遇到过一个如何存储爬取到数据的问题，

比如一个系列的套图链接应该放到特定的文件夹，我之前的操作都是

通过下面这样的格式写入到一个txt文件中：目录~链接

然后读取txt文件，获得字符串，然后通过split("~")来进行分隔，

split("~")[0]是目录，split("~")[1]是路径，挺low的，

如果是涉及到三个维度以上的再拼多一个~，在上上一节抓

半次元coser的时候就遇到一个恶心的问题，符号都他么被用了，

难以分隔，一个个特殊字符试，后面试到Θ才可以..

迫切需要一个东西来存我们抓取到的数据，当然最好用：数据库

但是考虑到学习成本(主要是我不熟！)，先通过一个简单的东西存起来。

AAffA0nNPuCLAAAAAElFTkSuQmCC

最简单的肯定是通过Excel表格啊，最直观了，非编程人员也能看懂！

不多说，开始本节内容～本节抓取例子：豆瓣音乐 Top 250

链接：https://music.douban.com/top250

1.编写抓数据脚本

依次校验：

1.数据能在Network选项卡找到，非JS动态加载，直接处理结果就好

2.点击第二页，选中XHR，没有东东，不是Ajax动态加载

链接规则：

链接规则显而易见，每25条一页，0，25,50,75...225

请求头：

就一个：Host:music.douban.com

模拟请求的套路摸清了，接下来就是处理网页拿到想要的数据了：

看下Element，不难发现数据都单独放在一个个table里：

AAffA0nNPuCLAAAAAElFTkSuQmCC

点开其中一个：

最低0.47元/天解锁文章

weixin_39671405

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 爬虫抓取网页数据导出excel_小猪的Python学习之旅 —— 14.爬虫实战：抓取豆瓣音乐Top 250数据存到Excel中...

一句话概括本文：利用Excel存储爬到的抓取豆瓣音乐Top 250数据信息，还有读Excel。引言：失踪人口回归，最近比较迷茫，不知道是回头深究Android，还是继续学Python，Android是旧爱，Python是新欢；Android应用层折腾来折腾去，无非：改UI，写控件，换下库，换下架构...以前一直想着写自己的项目，然后各种加东西优化，然后发现自己却没有了当年的热情，唉！相比Pytho...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。