说明:本数据可视化报表是基于经典泰坦尼克号数据集所做的数据分析可视化呈现,数据存储仓库为hive,可视化软件为finebi,hive建库建表脚本均在datagrip上进行编写。生成的图表包含柱状图,折线图,饼状图,词云图,雷达图,文本框图。
数据来源:
数据结构说明
表2-1 数据来源1前10行掺加统计的数据
从原始数据集读入的数据结构
表2-2 数据结构表
字段名称 | 字段类型 | 含义 |
passenger_id | string | 乘客编号 |
survived | string | 获救情况 |
pclass | string | 乘客等级 |
name | string | 姓名 |
sex | string | 性别 |
age | string | 年龄 |
sibsp | string | 兄妹个数 |
parch | string | 父母与小孩个数 |
ticket | string | 船票信息 |
fare | string | 票价 |
embarked | string | 登场港口 |
建表建库过程
数据准备阶段
#启动Hadoop集群
start-all.sh
#启动元数据存储服务
nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service metastore &
#启动Apache Hive2服务
nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service hiveserver2 &
#Apache Hive客户端
/export/server/apache-hive-3.1.2-bin/bin/beeline
#连接hiveserver2,执行CRUD
!connect jdbc:hive2://node1:10000
创建数据库,以及原始数据表
create database titanic;
show databases ;
use titanic;
create table titanic_data(
passenger_id string comment "乘客编号",
survived string comment "获救情况",
pclass string comment "乘客等级",
name string comment "姓名",
sex string comment "性别",
age string comment "年龄",
sibsp string comment "兄妹个数",
parch string comment "父母与小孩的个数",
ticket string comment "船票信息",
fare string comment "票价",
embarked string comment "登船港口"
)
row format delimited fields terminated by ',';
图2-3 加载数据集至hdfs
将原始数据集放至hdfs
load data inpath '/titanic/data/titanic.csv' into table titanic.titanic_data;
--加载数据集至hive,并验证数据集的前10行
select * from titanic_data limit 10;
图2-4 验证数据集是否正确导入
数据清洗工作
数据清洗工作
--数据清洗部分
--将乘客的年龄转化化float型,单独存入一张年龄表
create table age_info comment "年龄信息表" as select passenger_id,sex,cast(age as float)
from titanic_data where length(age) >0;
--将乘客的票价转化化float型,单独存入一张船票信息表
create table fare_info comment "船票信息表" as select passenger_id,
name,sex,cast(fare as float) from titanic_data ;
--将乘客的姓氏进行拆分,单独存入一张姓氏表
create table name_info comment "姓名信息表" as select passenger_id,
split(name,". ")[2] as familyname from titanic_data;
需求统计部分
大屏设计与实现过程
step1文本框部分
图2-5 选择建立文本框相关联的表
图2-6 添加乘客总人数文本框内容,调整颜色字体大小
图2-7 添加乘客生存人数文本框内容,调整颜色字体大小
图2-8 添加乘客死亡人数文本框内容,调整颜色字体大小
step2雷达图部分
图2-9 选择与雷达图相关的数据集
图2-10 确定横轴纵轴调整颜色
step3柱状图部分
图2-11 选择与柱状图相关的数据
图2-12 确定横轴纵轴调整颜色
step4饼状图部分
图2-13 确定与饼状图相关的数据集
图2-14 确定角度,标签,颜色
step5词云图部分
图2-15 确定与词云图相关的数据集图
2-16 确定文本,大小,颜色
step6折线图部分
图2-17 确定与折线图相关的数据集
图2-18 确定与横轴,纵轴,颜色
图2-21 效果总览图