基于Hive和FineBI数据分析可视化案例--泰坦尼克号乘客数据集

封陽

已于 2024-01-19 14:25:26 修改

阅读量694

点赞数 10

文章标签： finebi 数据分析数据可视化 hadoop hive

于 2024-01-18 14:24:22 首次发布

本文链接：https://blog.csdn.net/qq_63530155/article/details/135672541

版权

说明：本数据可视化报表是基于经典泰坦尼克号数据集所做的数据分析可视化呈现，数据存储仓库为hive，可视化软件为finebi，hive建库建表脚本均在datagrip上进行编写。生成的图表包含柱状图，折线图，饼状图，词云图，雷达图，文本框图。

数据来源：

【免费】泰坦尼克号乘客数据集（修改版）资源-CSDN文库

数据结构说明

表2-1 数据来源1前10行掺加统计的数据

从原始数据集读入的数据结构

表2-2 数据结构表

字段名称	字段类型	含义
passenger_id	string	乘客编号
survived	string	获救情况
pclass	string	乘客等级
name	string	姓名
sex	string	性别
age	string	年龄
sibsp	string	兄妹个数
parch	string	父母与小孩个数
ticket	string	船票信息
fare	string	票价
embarked	string	登场港口

建表建库过程

数据准备阶段

#启动Hadoop集群
start-all.sh
#启动元数据存储服务
nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service metastore &
#启动Apache Hive2服务
nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service hiveserver2 &
#Apache Hive客户端
/export/server/apache-hive-3.1.2-bin/bin/beeline
#连接hiveserver2，执行CRUD
!connect jdbc:hive2://node1:10000

创建数据库，以及原始数据表

create database titanic;
show databases ;
use titanic;
create table titanic_data(
    passenger_id string comment "乘客编号",
    survived string comment "获救情况",
    pclass string comment "乘客等级",
    name string comment "姓名",
    sex string comment "性别",
    age  string comment "年龄",
    sibsp string comment "兄妹个数",
    parch string comment "父母与小孩的个数",
    ticket string comment "船票信息",
    fare string comment "票价",
    embarked string comment "登船港口"
)
row format delimited fields terminated by ',';

图2-3 加载数据集至hdfs

将原始数据集放至hdfs

load data inpath '/titanic/data/titanic.csv' into table titanic.titanic_data;

--加载数据集至hive，并验证数据集的前10行
select * from titanic_data limit 10;

图2-4 验证数据集是否正确导入

数据清洗工作

数据清洗工作
--数据清洗部分
--将乘客的年龄转化化float型，单独存入一张年龄表
create table age_info comment "年龄信息表" as select passenger_id,sex,cast(age as float)
from titanic_data where length(age) >0;
--将乘客的票价转化化float型，单独存入一张船票信息表
create table fare_info comment "船票信息表" as select passenger_id,
name,sex,cast(fare as float) from titanic_data ;
--将乘客的姓氏进行拆分，单独存入一张姓氏表
create table name_info comment "姓名信息表" as select passenger_id,
split(name,". ")[2] as familyname  from titanic_data;

需求统计部分

大屏设计与实现过程

step1文本框部分

图2-5 选择建立文本框相关联的表

图2-6 添加乘客总人数文本框内容，调整颜色字体大小

图2-7 添加乘客生存人数文本框内容，调整颜色字体大小

图2-8 添加乘客死亡人数文本框内容，调整颜色字体大小

step2雷达图部分

图2-9 选择与雷达图相关的数据集

图2-10 确定横轴纵轴调整颜色

step3柱状图部分

图2-11 选择与柱状图相关的数据

图2-12 确定横轴纵轴调整颜色

step4饼状图部分

图2-13 确定与饼状图相关的数据集

图2-14 确定角度，标签，颜色

step5词云图部分

图2-15 确定与词云图相关的数据集图

2-16 确定文本，大小，颜色

step6折线图部分

图2-17 确定与折线图相关的数据集

图2-18 确定与横轴，纵轴，颜色

图2-21 效果总览图

封陽

关注

10
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
基于Hive和FineBI数据分析可视化案例--泰坦尼克号乘客数据集

生成的图表包含柱状图，折线图，饼状图，词云图，雷达图，文本框图。图2-7 添加乘客生存人数文本框内容，调整颜色字体大小。图2-8 添加乘客死亡人数文本框内容，调整颜色字体大小。图2-6 添加乘客总人数文本框内容，调整颜色字体大小。图2-13 确定与饼状图相关的数据集。图2-15 确定与词云图相关的数据集图。图2-17 确定与折线图相关的数据集。图2-18 确定与横轴，纵轴，颜色。图2-9 选择与雷达图相关的数据集。图2-11 选择与柱状图相关的数据。图2-14 确定角度，标签，颜色。
复制链接

扫一扫