此文首发于公众号「brucepk」,欢迎直接去公众号看
“ 阅读文本大概需要 3.1 分钟
上一篇文章爬取了歌手的姓名和歌手的 id ,这篇文章根据上篇爬取的歌手 id 来直接下载对应歌手的歌词。这些我其实可以写成一个大项目,把这个大项目拆成小项目一来方便大家的理解,二来小项目都会了的话,拼在一起就是一个完整的项目了。
上篇文章没学会的也不要紧,公众号回复「歌手」可以获取上次的爬取结果 csv 文件,文件里有歌手名字和歌手 id。
好了,先看看爬取歌词的结果,我输入的是张韶涵的 id:10562,爬取了热门歌曲 50 首的歌词。
项目环境
语言:Python
工具:Pycharm
导包
requests:根据 url 获取页面源码。
BeautifulSoup:解析提取源码。
程序结构:
程序由六部分组成:
get_html():提取页面源码
get_top5