ORC 查询流程

ORC 文件格式 ORC 文件分成多个 Stripe,每个 Stripe 里包括这个文件所有列的一部分数据,每个 Stripe 中的各个列的点数都一样,是可以对齐的。 只在 RowGroup 层做过滤,每个 RowGroup 默认有 10000 行元组。过滤完一个 RowGroup 就都读出来了。...

2019-05-17 20:50:14

阅读数 24

评论数 0

Parquet 编码方式

虽然 Parquet 的文档里写了很多编码方式 (https://github.com/apache/parquet-format/blob/master/Encodings.md ),但实际上 Parquet 只支持两种编码:Delta Encoding,Dictionary Encoding。...

2019-05-16 18:55:01

阅读数 13

评论数 0

Parquet 查询流程

总体流程:根据用户给定的 Filter,先对文件中所有 RowGroup (Block) 过滤一遍,留下满足要求的 RowGroup。对这些 RowGroup 中涉及到的所有 Chunk 都读出来,对其中的 Page 一个一个解压缩,拼成一个一个 Record,再进行过滤。 细节: 不管一个 p...

2019-05-15 21:14:19

阅读数 26

评论数 0

Grafana通过rest添加dashboard并访问url

目标 配置 Grafana,允许匿名访问 通过 rest 接口注册 dashbord 获取 dashbord url 进行可视化 mac 安装配置 安装 brew update brew install grafana 配置匿名访问:/usr/local/etc/grafana/gra...

2019-04-23 22:07:16

阅读数 192

评论数 0

ORC 文件层 API 读写

参考:https://codecheese.wordpress.com/2017/06/13/reading-and-writing-orc-files-using-vectorized-row-batch-in-java/ 目标: orc 各种数据类型写入 orc 查询,带过滤条件,带投影 ...

2019-04-06 15:55:19

阅读数 93

评论数 0

Ubuntu 安装 TimescaleDB

卸载 postgresql 如果之前用 apt 装过,可以清掉 sudo apt-get --purge remove postgresql\* sudo rm -Rf /etc/postgresql /var/lib/postgresql 安装 PostgreSQL 和 TimescaleDB...

2019-03-27 16:16:33

阅读数 53

评论数 0

Tranquility 写入数据到 Druid

需求 启动一个单机版 Druid 直接通过一个客户端写一些数据进去,不通过其他 kafka 或者 批量导入之类的 调研出来的方案 启动 Druid + tranquility Druid+Tranquility 快速启动:http://druid.io/docs/latest/tutori...

2019-03-19 15:14:23

阅读数 367

评论数 0

tar 批量解压多层目录文件

需求 tgz 文件存放在多层目录中 想解压到另一个位置,不影响当前文件夹 例子 类似这种目录结构 ./compressed_data/2011/01/01/file1.tgz ./compressed_data/2012/02/02/file2.tgz ./compressed_data...

2019-03-16 16:14:03

阅读数 280

评论数 0

Cassandra 安装配置

官网下载 https://cassandra.apache.org/download/ 配置 conf/cassandra.yaml cluster_name: 'QJL Cluster' # 需要写 ip,尽量别用 hostname - seeds: "192.168.1...

2019-03-14 21:35:17

阅读数 16

评论数 0

Kairosdb 安装配置

下载 下载解压1.2.2:https://github.com/kairosdb/kairosdb/releases KairosDB 靠 Cassandra 做分布式,自己是单机客户端。 配置 官方文档:http://kairosdb.github.io/docs/build/html/Gett...

2019-03-14 13:26:42

阅读数 102

评论数 0

Google Cloud Storage下载数据

以这个为例 https://console.cloud.google.com/storage/browser/archive-measurement-lab/utilization/ 安装 gsutil https://github.com/GoogleCloudPlatform/gsutil 下...

2019-03-12 17:58:28

阅读数 416

评论数 0

Storm 单机、集群安装部署

下载:http://storm.apache.org/downloads.html 单机配置 官方文档:http://storm.apache.org/releases/current/Setting-up-a-Storm-cluster.html 注意 storm.yaml 每个属性名前和冒号后...

2019-03-11 13:15:37

阅读数 34

评论数 0

HBase 分布式安装部署

下载:https://www.apache.org/dyn/closer.lua/hbase/ 配置 先配 hadoop,启动好,主节点 192.168.10.17:9000 conf/hbase.env.sh export JAVA_HOME=/usr/lib/jvm/java-8-orac...

2019-03-11 12:59:57

阅读数 23

评论数 0

Zookeeper 安装部署

下载解压:https://www.apache.org/dyn/closer.cgi/zookeeper/ mv ./conf/zoo_sample.cfg ./conf/zoo.cfg tickTime=2000 initLimit=10 syncLimit=5 // 数据、日志目录 da...

2019-03-11 12:46:40

阅读数 23

评论数 0

OpenTSDB 安装流程

依赖环境 A Linux system (or Windows with manual building) Java Runtime Environment 1.6 or later HBase 0.92 or later GnuPlot 4.2 or later HBase 安装 https:...

2019-03-05 16:57:07

阅读数 61

评论数 0

Google BigQuery 数据集下载示例

https://cloud.google.com/bigquery/public-data/ 描述 A public dataset collected by National Climatic Data Center, which contains the daily climatic da...

2019-03-05 14:40:49

阅读数 295

评论数 0

Hbase 单机安装部署

下载:https://www.apache.org/dyn/closer.lua/hbase/ 配置项 conf/hbase-env.sh export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_112.jdk/Contents/...

2019-03-04 14:59:54

阅读数 37

评论数 0

SummaryStore导入IDEA

SummaryStore来自这篇文章: 《Low-Latency Analytics on Colossal Data Streams with SummaryStore》 安装步骤 git clone git@github.com:ayvee/summarystore.git cd su...

2019-03-02 09:00:35

阅读数 41

评论数 0

IoTDB 招实习生啦

清华大学软件学院,大数据系统软件国家工程实验室数据库团队,招募实习生同学。团队介绍清华大学软件学院、大数据系统软件国家工程实验室欢迎本科生、研究生前来实习。数据库团队目前...

2019-02-28 15:38:06

阅读数 56

评论数 0

Time Series Management Systems: A Survey

今天分享一篇时序数据库Survey,《Time Series Management Systems: A Survey》,2017 年 TKDE 的。作者Søren K...

2019-02-25 19:46:02

阅读数 12

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭