什么是大数据?
big data,泛指规模庞大的数据集。
这种海量的数据一般难以使用常规软件工具进行捕捉、管理和处理,需要新处理模式才能有效处理。
大数据特征?
4V:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)
5V:——Veracity(真实性)
应用?意义?
应用:
各行各业、各方各面。
从海量数据中挖掘提取有用信息。
- 大数据杀熟
- 大数据推荐
- 大数据统计
- 业务流程优化
- 。。。。。。
意义:
大数据,帮助更方便直观地了解数据,深入挖掘数据中的价值。
企业大数据一般处理流程
-
数据源
- 关系型数据库——各种关系表
- 日志文件——用户行为数据等
- 三方数据——数据共享、爬虫等
-
数据采集
- flume
- kafka
- sqoop
- 等
-
数据存储
- HDFS
- HBase
- 等
-
数据清洗
- 过滤,得到一定格式的数据
-
数据分析
- 分析得到某种指标,获取某种信息
- 工具:MapReduce、Hive、SparkSQL。。。
-
数据展示
- 数据可视化、分析结果展示
- 工具:javaweb、echarts。。。
数据部门的组织架构
- 运维组
- 数据仓库组
- 数据研发组
- 可视化组