========================================================================================================================
1 FileInputFormat指定的输入是从HDFS上的,当然我们也可以从其它地方例如:HBASE上,或者存储单元上的数据!
FileOutputFormat同样是将数据存储到HDFS上!
3. Hbase优化:
1.表的设计
rowkey:主要查询的字段要出现在rowkey中,rowkey越少越好(最大为:64k),rowkey查询是最快的!
预分区:(理论上所有的表都要建立一个预分区,但是预分区要求自己要了解自己的数据量)
列族最好不超过3个,基本上就是两个或者就是一个!一个store对应一个列族,溢写或者合并会引起相邻列族的溢写或者合并!
多对多关系,和一对多关系表设计!
2.protobuf存储优化,节省存储空间,将多个cell封装起来,共用同一个rowkey等共同的资源!
3.
源码安装:
预编译:(检测环境+指定安装目录 configure --prefix )
编译make:(将源码编译成二进制可执行文件)
安装make install(安装之后就会在预编译期间指定的安装目录存放可执行文件)
4.yum 源修改之后要 1.yum clean all 2.yum makecache或者yum list重新生成缓存!
5.外键+join+group by +order by 都是在关系型数据库中的,在非关系型数据库Hbase中不存在!
6. major合并(crontab或者Quartz)
1 FileInputFormat指定的输入是从HDFS上的,当然我们也可以从其它地方例如:HBASE上,或者存储单元上的数据!
FileOutputFormat同样是将数据存储到HDFS上!
3. Hbase优化:
1.表的设计
rowkey:主要查询的字段要出现在rowkey中,rowkey越少越好(最大为:64k),rowkey查询是最快的!
预分区:(理论上所有的表都要建立一个预分区,但是预分区要求自己要了解自己的数据量)
列族最好不超过3个,基本上就是两个或者就是一个!一个store对应一个列族,溢写或者合并会引起相邻列族的溢写或者合并!
多对多关系,和一对多关系表设计!
2.protobuf存储优化,节省存储空间,将多个cell封装起来,共用同一个rowkey等共同的资源!
3.
源码安装:
预编译:(检测环境+指定安装目录 configure --prefix )
编译make:(将源码编译成二进制可执行文件)
安装make install(安装之后就会在预编译期间指定的安装目录存放可执行文件)
4.yum 源修改之后要 1.yum clean all 2.yum makecache或者yum list重新生成缓存!
5.外键+join+group by +order by 都是在关系型数据库中的,在非关系型数据库Hbase中不存在!
6. major合并(crontab或者Quartz)