文章目录
hbase
1.结构化数据和非结构化数据、半结构化数据的区别
计算机信息化系统中的数据分为结构化数据和非结构化数据、半结构化数据。
结构化数据,是指由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。
也称作行数据,一般特点是:数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
半结构化数据,是结构化数据的一种形式,虽不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。因此,也被称为自描述的结构。
常见的半结构数据有XML和JSON
非结构化数据,是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、HTML、各类报表、图像和音频/视频信息等等。
非结构化数据更难让计算机理解。
2.hbase操作
采用四维坐标定位,行键、列族、列限定符、时间戳
查看所有表 list
查看所有数据 scan ‘xyf’
插入数据 put ‘xyf’,‘004’,‘info:id’,‘10086’
HBase中RowKey可以唯一标识一行记录,在HBase中检索数据有以下三种方式:
全表扫描,即直接扫描整张表中所有行记录 scan ‘xyf’
通过 get 方式,指定 RowKey 获取唯一一条记录 get ‘xyf’,‘001’
通过 scan 方式,设置 startRow 和 stopRow