- 博客(3)
- 资源 (4)
- 收藏
- 关注
原创 hive小结
hive hive是建立在Hadoop上的数据仓库基础架构,将sql语句转化为MapReduce在Hadoop上执行。 hive优化 表优化:分区表,防止全表扫描,桶表。 sql优化:map端join,where优化(先执行where缩小数据),groupby自动优化 job优化:并行执行,本地执行,合并输入、输出小文件,压缩数据。 map优化:map端聚合,推测执行 red
2015-10-24 18:35:57 380
原创 hadoop知识点总结
HDFS 读流程 filesystem类是一个抽象类,其实现类是distributedfilesystem,打开文件时调用其open方法,DFSclient通过rpc协议获取namenode的代理对象,得到块的信息,返回FSdatainputstream对象,通过其read方法连接到datanode读取数据,数据读取完毕时关闭FSdatainputstream。 写流程 写入文件时调用cr
2015-10-24 15:31:25 352
原创 hbase小结
hbase原理 HBase是一个构建在HDFS上的分布式列存储系统。 在架构上hbase由hmaster和hregionserver组成,他们之间依靠zookeeper进行通信。 在数据模型上由行健、列族、列族限定符、时间戳、值组成。 在物理模型上region存储一个表的一定行健范围内的数据,region由多个hstore组成,hstore存储某个列族的memostore和storefil
2015-10-24 11:32:53 749
oracle11g-el7依赖
2018-06-21
python连接oracle包
2018-04-23
gcc安装依赖包
2018-04-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人