本篇文章适用于Python小白的教程篇,若是有哪里不足欢迎指出来,但愿对你帮助。html
本篇文章用到的模块:json
requests,re,os,jieba,glob,json,lxml,pyecharts,heapq,collection
首先
咱们先进入到须要抓取的内容的地址:http://music.163.com/#浏览器
本文咱们的目的服务器
抓取周杰伦的全部歌曲,
歌词,
以及评论
直接在搜索框搜索周杰伦echarts
第一步:工具
抓取全部专辑 进入http://music.163.com/#/artist/album?id=6452以下图所示!url
在谷歌浏览器的抓包工具(F12)里面查看交互信息发现以下:code
如图所示:是咱们须要的信息,知道这些事情就变得简单了视频
咱们不须要用复杂的工具好比(selenium)去加载整个页面xml
事实上,若是还没想到抓取歌曲的方法,我估计就得用它了
咱们再看header里面有什么
这里面的string就不用管了,由于它已经在咱们的url里面了
只须要看request headers 这个就是咱们给服务器发送的东西,
发送以后,服务器返回给咱们的就是network里面的信息。
好,接下来咱们伪造浏览器发送请求。
具体代码以下:
这里面用到了xpath来找到对应标签里面数据,
代码不重要,思想懂了就行(代码单独执行可行)
执行结果以下:
开始抓取歌曲信息
更多Python视频、源码、资料加群683380553免费获取
一样的道理咱们经过伪造方式发送信息,获取歌曲信息!!
直接上代码
上面须要注意:xpath来获取须要的信息,利用正则来获取ID(其实有不少方法)
同样的道理,咱们分析network来获取咱们须要的信息歌词,评论!!
直接上代码
上面须要注意的是:利用json获取须要的数据(至少比正则快点)
数据分析,可视化
上面须要注意的是:咱们合并数据的时候,能够选择性的删除一些无用数据
下面咱们对周杰伦歌曲进行情绪化分析
下面完成数据词频各类分析
咱们来看下结果
怎么样,学到了吗?看完记得动手操做哦!