- 博客(8)
- 资源 (5)
- 收藏
- 关注
翻译 07 配置优化
carbon.sort.intermediate.files.limitData loading 在加载数据期间,使用本地temp来对数据进行排序。 此数字指定必须启动合并排序之后的最小中间文件数。 增加参数到一个更高的值将提高负载性能。 例如,当我们将数值从20增加到100时,它将数据负载性能从35MB / S提高到超过50MB / S。 在加载过程中,此参数值越高,内存消耗越多。carb
2018-02-02 11:35:12 312
翻译 06 分区
创建HASH分区表CREATE TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type , ...)] PARTITIONED BY (partition_col_name data_type) STORED BY 'carbondata' [TBLPROPERTIES
2018-02-02 11:33:07 247
翻译 05 数据压缩
压缩可显着提高查询性能。 在加载数据期间,几个CarbonData文件会被生成,这是因为数据只在每次加载(每个load segment和一个B+ tree 索引)时被排序。频繁的load数据会导致carbon的存储目录生成很多影响查询性能的分散的CarbonData小文件,CarbonData提供了压缩load数据的措施。 压缩过程通过对来自各个分段的数据进行合并排序,将多个分段合并为一个大分段。有
2018-02-02 11:32:37 462
翻译 04 Load Data
将文件Load到CARBONDATA表此命令用于将csv文件加载到carbondata,对于数据加载过程,OPTIONS不是强制性的。 OPTIONS内部用户可以根据需要提供任何选项,如DELIMITER,QUOTECHAR,FILEHEADER,ESCAPECHAR,MULTILINE。carbondata在load数据时。默认必须csv格式,而且必须有header和表中的列对应。 但是可以在l
2018-02-02 11:32:08 949
翻译 03-附 建表时调优和建议
索引调优主要利用这两个属性, SORT-COLUMNS 和 SORT-SCOPE。SORT-COLUMNS 就是把使用最常用的过滤列放入里面,比如 C1 和 C2,假设 C1、C2 是最常用的,因索引有顺序,在业务设计的时候需要将最常用的过滤条件识别出来,按照顺序放入 COLUMNS 选项里面。这对常用的过滤条件有着较高效率。第二个是 SORT-SCOPE,我建议大家在默认情况下使用 LOCAL-S
2018-02-02 11:31:00 285
翻译 03 CarbonData的数据管理(建表)
建表字典编码配置Table Block Size配置Inverted Index配置排序列配置Sort Columns Configuration排序范围配置 Sort Scope Configuration管理表SHOW TABLEALTER TALBEDROP TABLE加载数据将数据文件加载到CARBONDATA表INSERT DATA INTO CARBONDATA
2018-02-02 11:30:11 3736
翻译 02 corborn 配置
系统配置本节提供了CarbonData系统所需的所有配置的详细信息。carbon.properties中的系统配置 Property Default Value Description carbon.storelocation /user/hive/warehouse/carbon.store CarbonData将创建存储的位置,并以自己的格式写入数据。 注意:存储位置应该在
2018-02-02 11:29:13 471
原创 01 安装测试carbondata
下载carbondata源码https://github.com/apache/carbondata/tree/master编译所需环境: 1. linux 2. jdk1.7或者1.8 3. maven 3.3+ 4. thrift 0.93thrift安装:http://blog.csdn.net/qq910894904/article/details/411327
2018-02-02 11:20:12 1270
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人