自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Focus on Lakehouse

公众号@大数据技术架构

  • 博客(11)
  • 收藏
  • 关注

转载 揭开 ClickHouse 快的面纱

https://www.jianshu.com/p/f9a54193dc63背景其实早在去年我们就已经开始接触并研究clickhouse了,因为当时进行多表关联测试性能并不是特别优秀,所以并没有在线上大范围使用,当时研究的是分布式部署 (感觉分布式会比单机好一些)最后发现性能并不怎么样 而且分布式的sql也有很多限制,不支持单条删除和更新操作、不支持in和join(...

2019-07-24 08:23:16 2542

原创 HBase 不同压缩方式介绍

欢迎订阅微信公众号:大数据技术架构,更多大数据基础架构,原理与实践,社区动态等。在使用 HBase 的时候,为了节省数据的空间占用,通常我们会为 HBase 设置压缩属性。与其他的表级别属性一样,压缩设置也是针对具体列族进行设置的。HBase 创建表时默认压缩为 NONE ,即没有压缩,除非指定。目前 HBase 主要支持 4 种压缩方式:GZ(GZIP),SNAPPY,LZO...

2019-07-23 12:09:56 4322 1

原创 Spark 设置指定 JDK 的正确姿势

欢迎订阅微信公众号:大数据技术架构,更多大数据基础架构,原理与实践,社区动态等。这两天在测试环境提交 Spark Streaming 任务时,遇到了一个 JDK 版本问题导致 job 一直提交失败。我们使用的组件版本:1Spark2.12Elasticsearch6.3.23JDK1.8.0_1622Elasticsearch6.3.23JDK1.8....

2019-07-20 20:25:55 1502

转载 玩转HBase百亿级数据扫描

本文授权自微信公众号【科技中通】背景:出于中通业务场景的特殊性,我们需要大量的回刷7-15天的数据,如果全部用离线抽取的方式,会给业务系统带来巨大压力,所以利用Hbaserowkey更新的特性,来存储业务数据的历史更新,每天ETL的任务需要大量从Hbase拉取数据,ETL任务需要扫描过滤近百亿数据。传统的方案是采用的方案是HBaseStorageHandler,利用HB...

2019-07-17 07:37:01 1824

原创 关于NoSQL,看这篇就够了

欢迎订阅微信公众号:大数据技术架构,更多大数据基础架构,原理与实践,社区动态等。一、NoSQL 介绍NoSQL(Not only SQL)数据库,可以理解为区别于关系型数据库如mysql、oracle等的非关系型数据库。聊到NoSQL不得不提著名的CAP理论,全称 Consistency Available and Partition tolerance,即一致性(C)、可...

2019-07-16 08:31:07 283

转载 HBase写入过快性能分析及调优

一、简单回顾HBase整个写入流程clientapi==>RPC==>serverIPC==>RPCqueue==>RPChandler==>writeWAL==>writememstore==>flushtofilesystem=>serverIPC==>R...

2019-07-15 08:18:53 749 1

原创 一份超详细的 Spark 入门介绍

欢迎订阅微信公众号:大数据技术架构,更多大数据基础架构,原理与实践,社区动态等。Apache Spark 是 UC Berkeley AMP Lab 开源的类 Hadoop MapReduce 的通用并行框架,是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是目前最流行的批流统一的大数据处理平台。Spark 自 2014 年发布 1.2 版本以来,已经成为了大数据...

2019-07-11 07:50:26 547

翻译 Kafka 的 20 项最佳优化实践

Apache Kafka是一款流行的分布式数据流平台,本文介绍Kafka大规模生产实践下的 20 项最佳优化。

2019-07-10 22:29:26 1000

原创 Impala 介绍与使用指南

最近在梳理大数据相关技术栈,查询引擎篇中重点介绍了Phoenix、Impala及Presto,一时想起自己开始使用Impala时的一个笔记。请阅读参考

2019-07-10 15:38:12 3103

转载 Elasticsearch 节点关闭流程分析

来源:https://www.easyice.cn/archives/280当为 es 集群更新配置,升级版本时,需要滚动升级:关闭数据平衡,依次 kill 节点。但是 ...

2019-07-09 18:24:37 950

原创 入门教程 | 从安装部署开始学习 Elasticsearch

Elasticsearch 是目前最流行的搜索引擎,学习 ES 的第一步便是安装部署。

2019-07-03 23:02:29 499

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除