全球影视行业发达国家可视化分析系统（爬虫+数据可视化）

在线打码

已于 2024-02-29 17:21:24 修改

阅读量54

点赞数

分类专栏：数据可视化文章标签：爬虫 python flask javascript django

于 2022-03-16 21:42:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/oNew_Lifeo/article/details/123535518

版权

数据可视化专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、项目需求

用正则表达式或者API接口的方法抓取这8个网站，经过数据清洗放到MySQL数据库，使用Web框架Flask、前端HTML、CSS、JavaScript等技术结合实现前台的显示，通过ECharts、Tableau等数据可视化工具绘图。

在这里插入图片描述

二、技术选型

1、爬虫

采用Python的BeautifulSoup库，通过解析文档来抓取想要的数据。数据处理流程是先从网页爬取数据保存到excel文件中然后通过sqlalchemy将excel文件保存到数据库。

2、可视化

前端Layui+Echarts图表，后端Python+Flask作Web框架

三、爬虫

由于8个网站结构和数据交互方式不同，需要采用的爬虫方法也都不一样。
比较简单的像韩国电影售票网站、香港电影评分网站都可以通过解析榜单中详情页URL，然后通过URL地址获取详情页源代码，最后通过bs4解析数据从而爬取想要的内容。
而像内地电影票房总排行榜有一定的反爬机制，当ip访问量达到一定的程度时，服务器后台会检测是否登录，当未登录时获取到的页面源码会是登录页面源码，解决办法就是通过设置请求头Cookie，让服务器知道我们已经登录

在这里插入图片描述
最后便能够正确抓取数据

在这里插入图片描述

四、可视化

可视化大致可以分为四个部分：首页、词云、网站详情、统计

1、首页

地图展示世界影视发达国家的基本信息
在这里插入图片描述

2、词云

对世界杰出影视作品和豆瓣影评作词云展示

在这里插入图片描述

3、网站详情

分页展示8个网站的数据

在这里插入图片描述

数据库数据

在这里插入图片描述

4、统计数据

对各个网站爬取的数据作图表统计展示

在这里插入图片描述

四、总结

该系统实现了对目标网站数据的爬取，并进行数据可视化。主要难点在于针对不同的网站实施不同的爬虫策略。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。