今天学习的是如何使用第三方库——requests库以及lxml库对网站进行爬虫。教学案例是对网易云上的音乐进行爬虫下载。
开始前首先要明晰爬虫整个程序的作用、原理、目的以及流程。
- 爬虫抓取的数据来源于哪里?——即音乐从哪里来?从网站的服务器上下载的,可以简单理解为网站上的。想要访问一个网站需要该网站的网址,即URL。本案例中的网址如下:(需要注意的是复制后需要删除#/)
- 有了原材料:网址,我们就思考如何从网址里获取我们需要的信息?——怎么从网址里得到音乐?需要向该网站发起网络数据请求。
- 同意后网站会向我们发送数据,但这时候的数据并不只是我们想要的数据,还包含许多其他数据,我们需要进一步筛选——筛选音乐文件
- 最后就是将我们需要的数据进行下载——下载音乐文件
清楚流程后就可以开始实现。
前面已经获得了网站的网址,下一步开始向该网址发起请求。
第二步需要用到一个第三方库:requests库(需要额外安装)