基于Spark和Hive进行的豆瓣电影数据分析

最新推荐文章于 2024-05-14 06:50:15 发布

weixin_34077371

最新推荐文章于 2024-05-14 06:50:15 发布

阅读量3.4k

点赞数 1

文章标签：大数据人工智能 python

原文链接：https://yq.aliyun.com/articles/413056

版权

写在前边的话：

算是自己做的一个小课题吧，自己搭建平台，自己爬取数据，自己进行数据清洗和分析，自己进行可视化展示，写这篇博客不为别的，只是记录下自己做这个课题的整个过程，大神们勿喷

环境说明：hadoop2.7集群，包含Hbase，Hive，Spark，Sqoop，Mahout组件

过程：平台部署->数据采集-> 数据存储->数据ETL->数据分析->可视化

课题github地址：https://github.com/Thinkgamer/Douban_Movies_Analysi （主要是源代码部分）

1：平台部署

看之前的博客：点击阅读

2：数据采集

数据来源，豆瓣电影，以Tag采集入口，对应标签采集对应的电影，使用Python3.4.3 + BeautifulSoup4.4.1 + urllib进行数据

的采集，本地存储形式为csv格式，代码结构为

-DouBan-Spider         #项目根目录
----download           #下载网页源代码模块
--------__init__.py 
-------down_html.py 
----fileoutput         #文件输出保存路径
----output             #将抓取的内容写入文件
--------__init__.py
--------output_all.py
----parase             #解析网页代码
--------__init__.py
--------parase_html.py
----urlmanager         #链接管理
--------__init__.py
--------manage_url.py
----main

数据保存格式（csv文件）

category.csv，两列（标签name，对应的电影数目）

movie.csv，10列(电影ID，名字，导演，编剧，类型，主演，上映时间，时长，评论人数，豆瓣评分)

最低0.47元/天解锁文章

weixin_34077371

关注

1
点赞
踩
65

收藏

觉得还不错? 一键收藏
0
评论
基于Spark和Hive进行的豆瓣电影数据分析

写在前边的话：算是自己做的一个小课题吧，自己搭建平台，自己爬取数据，自己进行数据清洗和分析，自己进行可视化展示，写这篇博客不为别的，只是记录下自己做这个课题的整个过程，大神们勿喷环境说明：hadoop2.7集群，包含Hbase，Hive，Spark，Sqoop，Mahout组件过程：平台部署-...
复制链接

扫一扫