数据分析案例1：Zeppelin+Hive分析MovieLens电影数据集

最新推荐文章于 2023-09-06 20:38:59 发布

机器熊技术大杂烩

最新推荐文章于 2023-09-06 20:38:59 发布

阅读量4.2k

点赞数 4

分类专栏： Zeppelin Hive Apache Zeppelin数据分析从入门到精通文章标签： Zeppelin Hive MovieLens 电影数据集分析案例

本文链接：https://blog.csdn.net/majianxiong_lzu/article/details/89644987

版权

本文使用Zeppelin和Hive对MovieLens电影数据集进行分析，包括电影流行度分析、口碑分析等。
Zeppelin连接Hive请参考：
Zeppelin组件配置和使用：使用JDBC连接Hive
MovieLens数据集介绍请参考：
MovieLens数据集（电影推荐、Hive、Spark SQL）

数据集介绍

本文选择MovieLens小数据集ml-1m包含100万评分数据集，下载地址
http://files.grouplens.org/datasets/movielens/ml-1m.zip

在这里插入图片描述

数据集包括包括用户、评分和电影三个文件，数据格式和示例如下

(1)用户信息(6040) users.dat

userid:gender:age:occupation:zipcode 
1::F::1::10::48067

(2)电影信息（3952） movies.dat

movieid:moviename:movietype
1::Toy Story (1995)::Animation|Children's|Comedy

(3)评分信息（1000209） ratings.dat

userid:movieid:rating:timestamp
1::1193::5::978300760

将数据上传至HDFS

hdfs dfs -mkdir /movie

hdfs dfs -put users.dat movies.dat ratings.dat /movie

hdfs dfs -ls /movie

创建数据库

create database movie;
use movie;

创建数据表并加载数据

(1)创建用户表

create table t_user(
userid bigint,
sex string,
age int,
occupation string,
zipcode string) 
row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe' 
with serdeproperties('input.regex'='(.*)::(.*)::(.*)::(.*)::(.*)','output.format.string'='%1$s %2$s %3$s %4$s %5$s')
stored as textfile;

加载数据

load data inpath "/movie/users.dat" into table t_user;

(2)创建电影表

create table t_movie(
movieid bigint,
moviename string,
movietype string) 
row format serde 'org.apache.hadoop.hive.serde2.RegexSerDe' 
with serdeproperties('

最低0.47元/天解锁文章

机器熊技术大杂烩

关注

4
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
数据分析案例1：Zeppelin+Hive分析MovieLens电影数据集

本文使用Zeppelin和Hive对MovieLens电影数据集进行分析，包括电影流行度分析、口碑分析等。Zeppelin连接Hive请参考：Zeppelin组件配置和使用：使用JDBC连接HiveMovieLens数据集介绍请参考：MovieLens数据集（电影推荐、Hive、Spark SQL）数据集介绍本文选择MovieLens小数据集ml-1m包含100万评分数据集，下载地址...
复制链接

扫一扫