数据库
solari_bian
这个作者很懒,什么都没留下…
展开
-
Carbondata源码阅读(1) - Carbondata Presto Connector
Carbondata Presto Connector好久没有写博客了。 最近开始读Apache Carbondata的源码,从presto connector开始读。因为一方面对scala和Spark源码不熟,另一方面是正在做的研究课题是以presto为基础的。其实carbondata对spark的支持比较好,在源码中有一万多行的scala代码是专门给spark写的一些元数据缓存和查询原创 2017-06-10 22:15:25 · 2782 阅读 · 0 评论 -
CarbonData源码阅读(2)-Hadoop InputFormat
Presto Integration之前已经读过了:http://blog.csdn.net/bhq2010/article/details/72972278 这个里面沿着CarbondataPlugin –> CarbondataConnectory –> CarbondataConnector –> CarbondataMetadata (以及org.apache.carbondata.pre原创 2017-07-09 17:50:05 · 992 阅读 · 0 评论 -
CarbonData源码阅读(3) - core代码结构概览
读过Carbondata Presto Connector和Hadoop module之后,其实对CarbonData core已经大概了解了一下,这里梳理一下。CarbonData因为特性比ORC多,加之目前还不成熟,所以代码读起来不如ORC容易。由于赶项目进度,打算先在ORC基础上做系统实现,之后再考虑往CarbonData迁移。CarbonData也还会继续读下去。这里当做笔记,慢慢写。 [原创 2017-07-27 15:10:47 · 940 阅读 · 0 评论 -
ORC源码阅读(1) - mapreduce module
ORC原来是作为Hive源码一部分的,先在独立出来成为Apache顶级项目,最新的Hive版本中也已经不再使用内置的ORC实现。但是在一些其他的系统,比如Presto中,依然有自己的Reader实现,但是和Apache的类似,只是代码风格和实现细节做了一些优化。我们项目打算基于最新的apache ORC源码做二次开发。ORC源码也是Maven管理的,clone下来之后,用intellij打开java原创 2017-07-27 17:56:20 · 2220 阅读 · 1 评论 -
ORC源码阅读(2) - OrcProto
读了mapreduce module之后,对orc的代码有了大概的了解,其实顺着RecordReader、Write和OrcFile、OrcStruct往下读就会有很多和protocol buffers有关的东西。其实如果对orc没有基本了解的话,应该先结合orc的文档读一下proto文件,这个文件在orc源码的proto目录下,文件名为orc_proto.proto。orc使用protocol b原创 2017-07-28 18:23:27 · 2896 阅读 · 2 评论