自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

微溪

人生逆旅,我本行人。

  • 博客(10)
  • 收藏
  • 关注

原创 Apache Kylin优化篇之联合维度(Joint Dimension)

       kylin作为OLAP查询最好的工具之一,但在kylin构建维度时,会生成很多不必要的维度cube,造成维度爆炸,占用大量的存储空间,为了缓解 Cube 的构建压力,减少生成的 Cuboid 数目,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid,本文主要介绍kelin维度优化配置–联合维度(Joint ...

2019-03-18 12:02:22 2818

原创 flink table api 自定义数据格式解析

       flink table api目前支持的数据格式(https://ci.apache.org/projects/flink/flink-docs-release-1.7/dev/table/tableApi.html )除基础数据格式外还支持pojo,但毕竟支持有限,我们希望通过固定的解析,就能直

2019-02-21 16:47:32 6634 11

原创 hbase rowkey 设计

一、查询最左匹配原则       假设查询包含3个维度:uid,city,age, 将rowkey的格式为: uid_city_age 则以下维度的查询都会比较高效通过uid查询通过uid+city查询通过uid、city和age查询而以下维度的查询则会相对低效一些而以下维度的查询则会相对低效一些(1) 通过city查询(2) 通过age...

2019-02-21 16:00:19 346

原创 storm 微批处理高级API Trident

storm Trident 概述 1.1. Apply Locally本地操作:操作都应用在本地节点的Batch上,不会产生网络传输 1.2. Functions:函数操作 1.3. Filters:过滤操作 1.4. PartitionAggregate 1.5. Aggragation聚合操作 1.6. grouped streams 1.7. Merge和Joins:什么是...

2018-09-10 11:51:04 582

原创 storm 批处理以及TickTuple窗口

一、Storm Storm是一个实时的可靠地分布式流计算框架。一个典型的大数据实时计算应用场景:从Kafka消息队列读取消息(可以是logs,clicks,sensor data);通过Storm对消息进行计算聚合等预处理;把处理结果持久化到数据库或者HDFS做进一步深入分析。 Storm中分为Topology开发和Trident开发,Trident是一种高度抽象的实时计算模型,是一种有...

2018-05-02 11:16:24 1386

原创 CarbonData 使用性能测试

carbondata 格式数据和Text 格式数据性能测试对比: 在数据量极少的情况下,Text的速度快于carbondata(数据量原因) 在数据两增加的情况下,carbondata的查询性能有明显的提升(3~7倍不等),具体情况见测试数据。 本测试测试的用例有限,性能评估还需更近一部测试。

2017-08-25 14:57:36 1630

原创 CarbonData使用示例(java)

Apache CarbonData是一种新的大数据文件格式,使用先进柱状存储,索引,压缩和编码技术实现更快速的交互式查询,以提高计算效率,将有助于加速查询超过PetaBytes数量级数据的速度。查询性能对比详细见carbondata 测试报告,安装文档详细见carbondata 安装文档 本文将介绍如何使用carbondata,以及如何编写一个carbondata 的saprk程序 一、在sp...

2017-08-25 14:51:55 7317 2

原创 carbondata 介绍

1、为什么要使用carbondata? CarbonData支持完整的标准SQL支持,以及多种分析场景的支持,“一份数据支持多种使用场景”,例如大规模扫描和计算的批处理场景,OLAP多维交互式分析场景,明细数据即席查询,主键低时延点查,以及对实时数据的实时查询等场景主要概括为一下几种(1)支持海量数据扫描提取其中某些列;(2)支持根据主键进行查找的低于秒级响应;(3)支持海量数据进行交互式查询

2017-08-25 14:49:07 16077 1

原创 carbondata 安装文档

carbondata 安装文档 一、build CarbonData 由于CarbonData刚刚开源,目前官方文档不规范并且较少。 1、先决条件: OS: centos(类unix OS) Apache Maven(推荐版本3.3或更高版本) Oracle Java 7或8 Apache Thrift 0.9.3 以上条件缺一不可 2、git 下载carbondata,或者直接从

2017-06-16 14:32:06 2416 7

原创 eclipse 集成maven及maven的使用(入门级教程,高手略过)

eclipse集成maven及maven使用教程网上看了很多eclipse 和maven集成的教程,对于懂maven的人来说一眼都能看懂,但对于新手来说还是有困难,说以些了这篇教程分享一下1、打开eclipse的Help--》Eclipse Marketplace,在搜索宽输入maven,找到图中的插件,点install。2、下载maven安装包,解压,并配置环境变量。配置MA...

2016-11-17 17:17:05 12247 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除