爬虫python软件数据可视化_适用于Python入门者的爬虫和数据可视化案例

最新推荐文章于 2022-09-24 02:45:50 发布

健玮

最新推荐文章于 2022-09-24 02:45:50 发布

阅读量439

点赞数

文章标签：爬虫python软件数据可视化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36140403/article/details/113720758

版权

这篇教程适合Python初学者，通过爬取周杰伦的歌曲信息，包括专辑、歌词和评论，讲解如何使用requests、re等模块进行网页抓取，并利用pyecharts进行数据可视化，实现情感分析和词频统计。

摘要由CSDN通过智能技术生成

本篇文章适用于Python小白的教程篇，若是有哪里不足欢迎指出来，但愿对你帮助。html

本篇文章用到的模块：json

requests,re,os,jieba,glob,json,lxml,pyecharts,heapq,collection

首先

咱们先进入到须要抓取的内容的地址：http://music.163.com/#浏览器

本文咱们的目的服务器

抓取周杰伦的全部歌曲，

歌词，

以及评论

直接在搜索框搜索周杰伦echarts

第一步：工具

抓取全部专辑进入http://music.163.com/#/artist/album?id=6452以下图所示！url

在谷歌浏览器的抓包工具(F12)里面查看交互信息发现以下：code

如图所示：是咱们须要的信息，知道这些事情就变得简单了视频

咱们不须要用复杂的工具好比(selenium)去加载整个页面xml

事实上，若是还没想到抓取歌曲的方法，我估计就得用它了

咱们再看header里面有什么

这里面的string就不用管了，由于它已经在咱们的url里面了

只须要看request headers 这个就是咱们给服务器发送的东西，

发送以后，服务器返回给咱们的就是network里面的信息。

好，接下来咱们伪造浏览器发送请求。

具体代码以下：

这里面用到了xpath来找到对应标签里面数据，

代码不重要，思想懂了就行(代码单独执行可行)

执行结果以下：

开始抓取歌曲信息

更多Python视频、源码、资料加群683380553免费获取

一样的道理咱们经过伪造方式发送信息，获取歌曲信息！！

直接上代码

上面须要注意：xpath来获取须要的信息，利用正则来获取ID(其实有不少方法)

同样的道理，咱们分析network来获取咱们须要的信息歌词，评论！！

直接上代码

上面须要注意的是：利用json获取须要的数据(至少比正则快点)

数据分析，可视化

上面须要注意的是：咱们合并数据的时候，能够选择性的删除一些无用数据

下面咱们对周杰伦歌曲进行情绪化分析

下面完成数据词频各类分析

咱们来看下结果

怎么样，学到了吗？看完记得动手操做哦！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。