Hadoop学习–(大数据)
一、大数据概念:
大数据是指在一定时间内无法用常规软件工具进行捕捉、管理和处理的数据集合。
大数据主要是解决海量数据的存储和分析计算。
二、大数据特点:
- 大量
- 高速(产生速度)
- 多样:
结构化数据:以二维表来逻辑表达和实现的数据。例如:文本文件、库表
非结构化数据:没有固定的结构。视频、图片
半结构化数据:存储的数据信息类似结构化,但本身以非结构化数据存储。 半结构化数据,属于同一类实体可以有不同的属性,即使他们被组合在一起,这些属性的顺序并不重要。常见的半结构数据有XML和JSON,对于对于两个XML文件。 - 低价值密度:与数据总量成反比。数据量越大,我们需要的信息所占比例越低。
三、大数据业务流程:
1.业务需求
2.搭建数据平台,分析指标
3.数据可视化(报表、大屏以及邮件发送等)