爬虫python软件数据可视化_适用于Python入门者的爬虫和数据可视化案例

这篇教程适合Python初学者,通过爬取周杰伦的歌曲信息,包括专辑、歌词和评论,讲解如何使用requests、re等模块进行网页抓取,并利用pyecharts进行数据可视化,实现情感分析和词频统计。
摘要由CSDN通过智能技术生成

本篇文章适用于Python小白的教程篇,若是有哪里不足欢迎指出来,但愿对你帮助。html

本篇文章用到的模块:json

requests,re,os,jieba,glob,json,lxml,pyecharts,heapq,collection

首先

咱们先进入到须要抓取的内容的地址:http://music.163.com/#浏览器

本文咱们的目的服务器

抓取周杰伦的全部歌曲,

歌词,

以及评论

直接在搜索框搜索周杰伦echarts

f8c1fc34bf698881528febf0596756f3.png

第一步:工具

抓取全部专辑 进入http://music.163.com/#/artist/album?id=6452以下图所示!url

35e72c73c23b9301ee05cd99ea6c21ce.png

在谷歌浏览器的抓包工具(F12)里面查看交互信息发现以下:code

c0ac48e7e7a6ed5899fdca8d8da17556.png

如图所示:是咱们须要的信息,知道这些事情就变得简单了视频

咱们不须要用复杂的工具好比(selenium)去加载整个页面xml

事实上,若是还没想到抓取歌曲的方法,我估计就得用它了

咱们再看header里面有什么

a0d163f1a7136804d387bfa214372577.png

这里面的string就不用管了,由于它已经在咱们的url里面了

只须要看request headers 这个就是咱们给服务器发送的东西,

发送以后,服务器返回给咱们的就是network里面的信息。

好,接下来咱们伪造浏览器发送请求。

具体代码以下:

b89e5e001684e8adcacae161ac49ef68.png

这里面用到了xpath来找到对应标签里面数据,

代码不重要,思想懂了就行(代码单独执行可行)

执行结果以下:

9c3a79a49e1c2cf2063416c48b67752b.png

开始抓取歌曲信息

355ca79909ba6a4372ca30dd8e38e338.png

更多Python视频、源码、资料加群683380553免费获取

一样的道理咱们经过伪造方式发送信息,获取歌曲信息!!

直接上代码

59ce9eefe6d716aae222cb8b48a29a7a.png

上面须要注意:xpath来获取须要的信息,利用正则来获取ID(其实有不少方法)

6682160c698d4463050989ec01de069d.png

a90d8c8aa5cbcd31345879392e386e3a.png

同样的道理,咱们分析network来获取咱们须要的信息歌词,评论!!

直接上代码

5fc56650731bc9d7a2cba614db415560.png

上面须要注意的是:利用json获取须要的数据(至少比正则快点)

08cda516bb5812c57fb739f635b2db90.png

数据分析,可视化

80bd0304b75819b3a0282dd3da858fa8.png

上面须要注意的是:咱们合并数据的时候,能够选择性的删除一些无用数据

d8d4c904d22eafb4813c5b670cdfc284.png

下面咱们对周杰伦歌曲进行情绪化分析

5d8b491f29d495bc422d37a0c98cb716.png

下面完成数据词频各类分析

5c3c222de7a79d88bfda4b7b6e91ac47.png

咱们来看下结果

50cd54642356bc87b65cdcff20e57264.png

fb98961e3b2ef0fc6df501c65f8bc110.png

ec52ec4ef35cba51189d05832b79239a.png

bd19f511de832e06e810510be522813c.png

a456e3bba5f5d69c4c74a6302e7adbfb.png

7e19a844fc06d1cfee6a50c0c80e0a43.png

2492d3097261ff35fb7b9f9bfb4c5458.png

201cde674ce9ec1ecf1612ee00f98f1b.png

ce08e106309f4d3617e00563c5a45a46.png

e924543a9f8922863d53212c7a09a5b8.png

a11ec6a64c603f1040d0f18bfcb599c9.png

da4b03dbaa80e7a50ced4573eb31f225.png

怎么样,学到了吗?看完记得动手操做哦!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值