requests模块+lxml模块

最新推荐文章于 2024-04-29 11:36:53 发布

wtbsm

最新推荐文章于 2024-04-29 11:36:53 发布

阅读量500

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ouat2018/article/details/119178063

版权

今天学习的是如何使用第三方库——requests库以及lxml库对网站进行爬虫。教学案例是对网易云上的音乐进行爬虫下载。开始前首先要明晰爬虫整个程序的作用、原理、目的以及流程。爬虫抓取的数据来源于哪里？——即音乐从哪里来？从网站的服务器上下载的，可以简单理解为网站上的。想要访问一个网站需要该网站的网址，即URL。本案例中的网址如下：（需要注意的是复制后需要删除#/）有了原材料：网址，我们就思考如何从网址里获取我们需要的信息？——怎么从网址里得到音乐？需要向该网站发起网络数据请求。同意后网站会

摘要由CSDN通过智能技术生成

今天学习的是如何使用第三方库——requests库以及lxml库对网站进行爬虫。教学案例是对网易云上的音乐进行爬虫下载。

开始前首先要明晰爬虫整个程序的作用、原理、目的以及流程。

爬虫抓取的数据来源于哪里？——即音乐从哪里来？从网站的服务器上下载的，可以简单理解为网站上的。想要访问一个网站需要该网站的网址，即URL。本案例中的网址如下：（需要注意的是复制后需要删除#/）
有了原材料：网址，我们就思考如何从网址里获取我们需要的信息？——怎么从网址里得到音乐？需要向该网站发起网络数据请求。
同意后网站会向我们发送数据，但这时候的数据并不只是我们想要的数据，还包含许多其他数据，我们需要进一步筛选——筛选音乐文件
最后就是将我们需要的数据进行下载——下载音乐文件

清楚流程后就可以开始实现。

前面已经获得了网站的网址，下一步开始向该网址发起请求。

第二步需要用到一个第三方库：requests库（需要额外安装）

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
requests模块+lxml模块

今天学习的是如何使用第三方库——requests库以及lxml库对网站进行爬虫。教学案例是对网易云上的音乐进行爬虫下载。开始前首先要明晰爬虫整个程序的作用、原理、目的以及流程。爬虫抓取的数据来源于哪里？——即音乐从哪里来？从网站的服务器上下载的，可以简单理解为网站上的。想要访问一个网站需要该网站的网址，即URL。本案例中的网址如下：（需要注意的是复制后需要删除#/）有了原材料：网址，我们就思考如何从网址里获取我们需要的信息？——怎么从网址里得到音乐？需要向该网站发起网络数据请求。同意后网站会
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。