大数据特征
- 数据量大(Volume) 非结构化数据的超大规模和增长,导致数据集合的规模不断扩大,数据单位已从GB到TB再到PB级,甚至开始以EB和ZB来计数。
- 类型繁多(Variety) 大数据的类型不仅包括网络日志、音频、视频、图片、地理位置信息等结构化数据,还包括半结构化数据甚至是非结构化数据,具有异构性和多样性的特点。
- 价值密度低(Value) 大数据本身存在较大的潜在价值,但由于大数据的数据量过大,其价值往往呈现稀疏性的特点。虽然单位数据的价值密度在不断降低,但是数据的整体价值在提高。
- 速度快时效高(Velocity) 要求大数据的处理速度快,时效性高,需要实时分析而非批量式分析,数据的输入,处理和分析连贯性地处理。
- 结构化数据
-
结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
-
也称作行数据,一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
非结构化数据
非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。
非结构化数据更难让计算机理解。 -
hadpoop生态圈
-
hadoop hdfs架构5hdfs读的流程
-
1、客户端向NameNode发起请求,需要获取名字为1的数据块
2、NameNode中保存了该数据块存储的位置,将DataNode的信息返回给客户端
3、客户端就近的方式去从DataNode获取数据
4、如果某个DataNode无法访问
5、从另一个DataNode中去获取数据