基于Hive和FineBI数据分析可视化案例--泰坦尼克号乘客数据集

说明:本数据可视化报表是基于经典泰坦尼克号数据集所做的数据分析可视化呈现,数据存储仓库为hive,可视化软件为finebi,hive建库建表脚本均在datagrip上进行编写。生成的图表包含柱状图,折线图,饼状图,词云图,雷达图,文本框图。

数据来源:

【免费】泰坦尼克号乘客数据集(修改版)资源-CSDN文库

数据结构说明

表2-1 数据来源1前10行掺加统计的数据

67c9b53b83444304abdfac4c5acd6ed7.png

从原始数据集读入的数据结构

表2-2 数据结构表 

字段名称

字段类型

含义

passenger_id

string

乘客编号

survived

string

获救情况

pclass

string

乘客等级

name

string

姓名

sex

string

性别

age

string

年龄

sibsp

string

兄妹个数

parch

string

父母与小孩个数

ticket

string

船票信息

fare

string

票价

embarked

string

登场港口

建表建库过程

数据准备阶段

#启动Hadoop集群
start-all.sh
#启动元数据存储服务
nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service metastore &
#启动Apache Hive2服务
nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service hiveserver2 &
#Apache Hive客户端
/export/server/apache-hive-3.1.2-bin/bin/beeline
#连接hiveserver2,执行CRUD
!connect jdbc:hive2://node1:10000

创建数据库,以及原始数据表

create database titanic;
show databases ;
use titanic;
create table titanic_data(
    passenger_id string comment "乘客编号",
    survived string comment "获救情况",
    pclass string comment "乘客等级",
    name string comment "姓名",
    sex string comment "性别",
    age  string comment "年龄",
    sibsp string comment "兄妹个数",
    parch string comment "父母与小孩的个数",
    ticket string comment "船票信息",
    fare string comment "票价",
    embarked string comment "登船港口"
)
row format delimited fields terminated by ',';

640ff211f5ee4470be9eed6b82359ea1.png图2-3 加载数据集至hdfs

将原始数据集放至hdfs

load data inpath '/titanic/data/titanic.csv' into table titanic.titanic_data;

--加载数据集至hive,并验证数据集的前10行
select * from titanic_data limit 10;

5efb106edf7745d7a8db3988cbad635e.png
图2-4 验证数据集是否正确导入

数据清洗工作

数据清洗工作
--数据清洗部分
--将乘客的年龄转化化float型,单独存入一张年龄表
create table age_info comment "年龄信息表" as select passenger_id,sex,cast(age as float)
from titanic_data where length(age) >0;
--将乘客的票价转化化float型,单独存入一张船票信息表
create table fare_info comment "船票信息表" as select passenger_id,
name,sex,cast(fare as float) from titanic_data ;
--将乘客的姓氏进行拆分,单独存入一张姓氏表
create table name_info comment "姓名信息表" as select passenger_id,
split(name,". ")[2] as familyname  from titanic_data;

需求统计部分

大屏设计与实现过程

step1文本框部分

baf1538e075f4791922a79e417fcbcb9.png

 图2-5 选择建立文本框相关联的表

09ffc4cf4ae449248ecaa35d9d168646.png

图2-6 添加乘客总人数文本框内容,调整颜色字体大小

0f87c9ffbd764fb695835002ae2a9baf.png

 图2-7 添加乘客生存人数文本框内容,调整颜色字体大小

dcda880dec5c4489a79ce330512d607d.png

图2-8 添加乘客死亡人数文本框内容,调整颜色字体大小

step2雷达图部分

4559a9c55e484fccae07a8445c05f6ec.png


图2-9 选择与雷达图相关的数据集

cf51bb6237904194a855a5814a9b1a76.png


图2-10 确定横轴纵轴调整颜色

step3柱状图部分

1957263a4a334747974fc7f521f2c9fc.png


图2-11 选择与柱状图相关的数据

e102f2eebe5c41ae81cb1e13be99bd84.png

图2-12 确定横轴纵轴调整颜色

step4饼状图部分

b6458b4f6c094069a647efd4cefc8f8e.png

     图2-13 确定与饼状图相关的数据集

ff12fcbd58314bd995129b3918db7d39.png

图2-14 确定角度,标签,颜色


step5词云图部分

c7bf76a82dd44e138cbbaaf94c57720a.png


图2-15 确定与词云图相关的数据集图

87248596bc0b45999bc7481ab7612042.png

 2-16 确定文本,大小,颜色

step6折线图部分

45935b47f43947799b63b53a9876fc3a.png

 图2-17 确定与折线图相关的数据集

355d54bd13d84feb84b50dac02410483.png

 图2-18 确定与横轴,纵轴,颜色

3de4b7a3d7614ab2b74da8a9dafb6644.png

图2-21 效果总览图

  • 10
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Hive是一款基于Apache Hadoop数据仓库工具,具有高扩展性和容错性。通过Hive可以方便地进行大数据分析,包括对电影数据的分析可视化。 针对电影数据的分析,可以将数据导入Hive表中,然后使用Hive SQL语言进行数据查询和聚合。例如,可以通过Hive查询每个月的电影票房收入、不同类型电影的产量等信息,也可以对电影评分数据进行分析,了解用户对电影的喜好倾向,找到受欢迎的电影和顶级演员等信息。 通过Hive Tableau等进行可视化分析可以更加直观地展示数据。例如,在Tableau中可以使用电影票房收入、电影类型等信息建立热力图、堆积柱状图或散点图等图表,展现电影市场和受众的状况。还可以建立电影推荐模型,利用机器学习算法,将电影数据和用户喜好进行匹配,从而给用户推荐最适合自己观看的电影。 总之,基于Hive的电影数据分析可视化可以帮助我们更好地了解电影市场及用户信息,从而为电影行业的决策和发展提供有利的支持。 ### 回答2: 基于hive的电影数据分析可视化是一种利用大数据技术来探索电影市场的方法。通过对海量电影数据进行收集、存储和分析,可以找出电影市场的趋势及热点,为电影产业提供决策支持。 在这个过程中,hive数据库是执行数据清洗和预处理的关键工具。它能够使用Hadoop集群处理大量的电影数据,并将结果存储在Hadoop服务器上,以便在需要时方便地进行查询和分析。 电影数据分析通常涵盖电影票房、受欢迎程度、观众反应和地域分布等多个方面。在hive中,可以通过SQL语句进行查询,比如:找出某个月份内最受欢迎的五部电影、查看某个地区电影票房排名、分析电影类型在不同地区的流行程度等。 可视化是另一个重要的方面,通过采用数据可视化工具,可以将hive数据库中的数据以图形的方式展示出来。这种方法可以使数据变得更加生动且易于理解,通过可视化图表或热力图等形式,帮助用户更清晰地了解电影市场的情况,为电影行业的业务和市场调研提供有力支持。 总之,基于hive的电影分析可视化是应用大数据技术来探索电影市场的一种新型方式,它能够让我们更深入地理解电影市场的情况,为电影产业的决策者提供更详尽的数据支撑,对于推动电影行业的发展具有重要的意义。 ### 回答3: Hive是一种流行的分布式数据存储和查询系统,它提供了一个类似于SQL的查询语言,用于处理大规模数据集。基于Hive的电影数据分析可视化是一种有效的方法来了解电影产业的趋势和偏好。通过使用Hive查询语言,分析电影数据集并使用可视化工具呈现结果,可以从多个维度了解电影市场的特点。 首先,我们可以使用Hive查询语言对电影数据进行初步的数据清洗和过滤,例如去除无用字段和重复数据。然后,我们可以使用Hive的聚合函数来计算电影数量、票房总额、平均票价等重要指标,并利用Hive的窗口函数来计算每个电影类型和地区的排名。从排名结果中我们可以发现用户对不同电影类型和地区有着不同的好恶。 其次,通过使用可视化工具如Tableau、PowerBI等,我们可以将Hive查询结果转换为各种图表,如柱形图、折线图、地图等,以更加生动形象地展示电影市场的情况。例如,可以制作图表以显示电影类型的销售情况、票房收入的时间趋势以及地域销售情况。 最后,从分析结果中可以发现一些有趣的趋势,如好莱坞大片和爆笑喜剧通常是最受欢迎的电影类型,而中国内地和北美是电影销售最为火爆的区域。通过层层拆解和可视化电影数据,可以对电影市场有全面了解,有助于电影从业人员做出更明智的决策。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值