python数据爬取及数据可视化分析

最新推荐文章于 2024-08-22 00:03:42 发布

hyw_icy

最新推荐文章于 2024-08-22 00:03:42 发布

阅读量1.4w

点赞数 68

文章标签： python 可视化数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hyw_icy/article/details/112295113

版权

电影网站数据分析及可视化研究

本博客是一篇集数据爬取，存储为excel表格，将数据可视化为一体的博文，数据爬取采用request等方法，数据可视化会使用图表进行展示，有改进的地方还请大家多多指教。

目录

电影网站数据分析及可视化研究
数据爬取
数据分析
小结

数据爬取

环境配置问题

在进行数据爬取之前，需要进行一些导入
在这里插入图片描述
这些导入包括json库，requests方法等等，但是在进行导入的过程中根据计算机的差异可能会出现一些问题。我在进行安装requests的过程当中就遇到了一些问题。

在安装的过程当中，由于pip版本过低需要进行更新，故无法进行requests的安装。
在这里插入图片描述
但是命令提示符所给出的系统自动更新的方法却无法进行更新，那么就可以去找一个镜像源来进行安装，并且最好是国内的安装源，运行速度快，可使用清华或是豆瓣安装源进行尝试，安装成功结果如下。

在这里插入图片描述

反爬取处理（headers）

在配置好环境后，就可以找到我们需要爬取的网站对其信息进行爬取，但需注意，若非静态页面，一般的动态页面会有一些反爬取的措施，那么我们应该怎么做才能够爬取到我们想要的信息呢，其实很简单。首先我们找到需要爬取的网页：
在这里插入图片描述
鼠标右键点击审查元素，找到network——Doc——当前网址——headers，往下滑到最下面就会看到一个叫User-Agent一栏，在爬取的时候进行调用即可

数据获取

在这里插入图片描述获取例如影片名称列表，所在区域的影片简介，评分等等，将获取到的信息保存至csv文件中。存储示例如下：

数据分析

影片出现次数年份分布

进行库的导入和数据读取是每一个分析的先决条件。
在这里插入图片描述
分析数据，以柱状图显示

电影类型的数据字段分析

在这里插入图片描述

词云图分析

上映区间数据统计

在这里插入图片描述

电影评分数据分析

在这里插入图片描述
以饼状图显示：

小结

对于数据可视化的学习还远不应止如此，如何将数据更为直观，更为简洁，更为层次分明地展现在大家眼前，这是值得考虑的问题，对于各种环境和工具的运用，如何能够做到更为熟练和精细，是自我提升所必需的。
喜欢本博客的话记得点个赞，也记得关注一下博主哦！

关注

68
点赞
踩
255

收藏

觉得还不错? 一键收藏
49
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 49

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。