什么是大数据
特征
- 数据量庞大
- 数据类型多样——结构化、半结构化、非结构化
- 数据增长速度快
- 数据价值密度低
企业中大数据处理流程
数据源
- 关系型数据库:各种关系表
- 日志文件:用户行为数据
- 三方数据:三方接口数据/爬虫
数据采集/同步
- sqoop:RDBMS和HDFS之间数据导入导出
- flume:采集日志文件数据
- kafka:实时数据处理
数据存储
- 常用存储框架:HDFS、HBase、ES
数据清洗
- 常用工具:MapReduce、Hive、SparkCore、sparksql等
数据分析
- 常用工具:MapReduce、Hive、SparkSQL、impala、kylin等
数据展示
- 常用工具:metastore、Javaweb、hcharts、echarts