大数据教程:数据可视化(ECharts)
一.数据可视化概述
将结果数据的每一个数据项作为图表的元素表示,大量的数据集构成数据图像,同时将数据的各个属性以多维度的方式展现,可以提高数据可读性。
一)数据处理流程
1.数据采集
将已经存在的数据管理起来(爬虫【深度爬取】—网页上的数据,文本文件(xls,csv)上传,数据库导出,数据流【金融证券天气 (保证实时性)】,长文本,高维数据)
本次研究基于离线数据的框架
技术点:爬虫框架,hdfs,hive,sqoop
2.数据清洗
数据降噪(噪点:对于结果数据影响较大的数据)
数据关联关系清洗出需要进行计算的数据
最终得到结构化或半结构化的数据
技术点:hql,mr
3.数据计算
统计分析:sql,mr–》分组汇总,极值,多维度展示
结果预测:spark(mllib)机器学习(分类/聚类算法库)
4.数据可视化
(把数据库中的数据集以图表的形式展现出来)
Java中的char库
Echarts,HighCharts,Dj—》数据多维度,多种形式的展示–》可视化的可配置性高,这种可配置性是通过界面化的操作制定的
二.数据可视化组件
一)常见可视化组件
1.ECharts
Echarts:百度开源项目,国内应用十分广泛,涉及金融,医疗,物流,气候检测等多个领域,目前已进入Apache孵化器
2.HighCharts
HighCcharts在09年发布,使用纯 js 编写的图表库
3.D3.js
D3.js基于数据处理文档的js库。强调网络标准,将强大的可视化组件和数据驱动方法结合到DOM操作中
二)环境准备
1.大数据环境
- jdk
- Hadoop
- Mysql
- Hive 开启远程连接
2.开发环境
- 访问大数据环境
- 能够使用HiveJDBC读取运算结果(用reduce也可以)
- WebProject
三.Echarts简单实例
一)下载与安装
下载地址: