hbase
文章平均质量分 92
hbase系列文章
浪尖聊大数据-浪尖
弓重好:浪尖聊大数据,主要分享大数据架构基础到入门的文章。
展开
-
汽车之家4 年 Kylin最佳实践大揭秘!
Kylin 作为汽车之家的核心 OLAP 引擎,服务于多个业务线与商业数据产品,应用于流量、线索、用户行为、推荐效果等方面的数据分析场景。目前已有 500+ 个 Kylin Cube,存...转载 2020-06-11 00:00:58 · 505 阅读 · 0 评论 -
Hdfs的DN节点数据磁盘大小不均衡如何处理
这是一篇历史文章,貌似16还在负责做集群的时候遇到并解决的一问题。之所以发出来是因为感觉比较实用,自从公众号迁移之后,历史文章不能搜索了,所以浪尖每隔一段时间,抽一篇比较实用的历史文章发...原创 2020-05-25 00:01:03 · 984 阅读 · 0 评论 -
必须了解的实时数据架构
随着互联网的发展进入下半场,数据的时效性对企业的精细化运营越来越重要, 商场如战场,在每天产生的海量数据中,如何能实时有效的挖掘出有价值的信息, 对企业的决策运营策略调整有很大帮助。此外...转载 2020-04-28 00:05:56 · 1119 阅读 · 0 评论 -
滴滴 3000+ Kylin Cube 背后的实践经验揭秘
本次分享主要有三个部分:Kylin 在滴滴的整体应用、架构的实践经验、滴滴全局字典最新版本的实现以及 Kylin 最新实时 OLAP 探索经验分享。Kylin 在滴滴的应用&架构...转载 2020-04-26 00:03:25 · 591 阅读 · 0 评论 -
基于Hadoop的58同城离线计算平台设计与实践
分享嘉宾:余意 58同城高级架构师编辑整理:史士博内容来源:58大数据系列直播出品平台:DataFun注:欢迎转载,转载请在留言区留言。导读:58离线计算平台基于 Hadoop 生态体...转载 2020-04-24 00:03:43 · 430 阅读 · 0 评论 -
【开发实践】美团为什么开发 Kylin On Druid(上)?
前言在大数据分析领域,Apache Kylin 和 Apache Druid (incubating) 是两个普遍使用的 OLAP 引擎,都具有支持在超大数据上进行快速查询的能力。在一...转载 2020-04-11 23:17:31 · 352 阅读 · 0 评论 -
从 Spark Streaming 到 Apache Flink:bilibili 实时平台的架构与实践
摘要:本文由 bilibili 大数据实时平台负责人郑志升分享,基于对 bilibili 实时计算的痛点分析,详细介绍了 bilibili Saber 实时计算平台架构与实践。本次分享主...转载 2020-02-18 15:11:37 · 321 阅读 · 0 评论 -
京东JDHBase异地多活实践
JDHBase在京东集团作为线上kv存储,承担了大量在线业务,11.11、6.18 均经历了每天万亿级读写访问请求,目前规模达到7000+节点,存储容量达到了90PB。场景涉及商品订单、评...转载 2021-02-27 23:23:00 · 316 阅读 · 0 评论 -
HBase原理——要弄懂的sequenceId
转自:https://www.jianshu.com/p/e5a88fc57fce为什么需要sequenceId?HBase数据在写入的时候首先追加写入HLog,再写入Memstore,...转载 2020-10-09 22:00:00 · 747 阅读 · 1 评论 -
百亿级图数据JanusGraph迁移之旅
1. 迁移背景介绍目前我们的图数据库数据量为 顶点 20 亿,边 200 亿的规模。在迁移之前我们使用的 AgensGraph 数据库一个主库四个备库,机器的配置都比较高,256G 内存...转载 2020-10-04 22:00:00 · 761 阅读 · 0 评论 -
从B+树到LSM树,及LSM树在HBase中的应用
前言在有代表性的关系型数据库如MySQL、SQL Server、Oracle中,数据存储与索引的基本结构就是我们耳熟能详的B树和B+树。而在一些主流的NoSQL数据库如HBase、Cas...转载 2020-07-11 22:34:08 · 202 阅读 · 1 评论 -
美团点评基于 Flink 的实时数仓建设实践
引言近些年,企业对数据服务实时化服务需求日益增多。本文整理了常见实时数据组件的性能特点和适用场景,介绍了美团如何通过 Flink 引擎构建实时数据仓库,从而提供高效、稳健的实时数据服务。...转载 2020-01-12 22:32:19 · 442 阅读 · 1 评论 -
再谈|Rowkey设计_HBase表设计
HBase的rowkey设计可以说是使用HBase最为重要的事情,直接影响到HBase的性能,常见的RowKey的设计问题及对应访问为:Hotspotting的行由行键按字典顺序排序,这...转载 2019-12-09 19:09:41 · 197 阅读 · 0 评论 -
58HBase平台实践和应用-OLAP篇
Kylin是一个底层使用HBase作为存储引擎和查询引擎的的多维分析平台,并对外提供标准SQL查询功能。在超大规模数据集上,Kylin还能达到亚秒级的查询响应。Kylin...转载 2019-10-25 19:45:01 · 533 阅读 · 0 评论 -
快手 HBase 在千亿级用户特征数据分析中的应用与实践
分享嘉宾:陈杨 快手编辑整理:Hoh Xil内容来源:BigData NoSQL 12th Meetup出品社区:DataFun注:欢迎转载,转载请注明出处。快手建设 H...转载 2019-10-11 22:56:46 · 299 阅读 · 0 评论 -
阿里HBase的数据管道设施实践与演进
云栖君导读:第九届中国数据库技术大会,阿里巴巴技术专家孟庆义对阿里HBase的数据管道设施实践与演进进行了讲解。主要从数据导入场景、 HBase Bulkload功能、H...转载 2019-04-07 22:21:25 · 413 阅读 · 0 评论 -
面试|海量文本去重~simhash
simhash算法是google发明的,专门用于海量文本去重的需求,所以在这里记录一下simhash工程化落地问题。下面我说的都是工程化落地步骤,不仅仅是理论。背景互联网...转载 2018-12-20 00:13:00 · 2760 阅读 · 3 评论 -
HBase原理 – 所有Region切分的细节都在这里了
Region自动切分是HBase能够拥有良好扩张性的最重要因素之一,也必然是所有分布式系统追求无限扩展性的一副良药。HBase系统中Region自动切分是如何实现的?...转载 2018-09-22 00:03:41 · 425 阅读 · 0 评论 -
Spark 下操作 HBase(1.0.0 新 API)
hbase1.0.0版本提供了一些让人激动的功能,并且,在不牺牲稳定性的前提下,引入了新的API。虽然 1.0.0 兼容旧版本的 API,不过还是应该尽早地来熟悉下新版A...原创 2018-07-11 00:09:55 · 376 阅读 · 0 评论 -
HBase从入门到精通系列:误删数据如何抢救?
云栖君导读:有时候我们操作数据库的时候不小心误删数据,这时候如何找回?mysql里有binlog可以帮助我们恢复数据,但是没有开binlog也没有备份就尴尬了。如果是HB...转载 2018-06-28 00:13:53 · 369 阅读 · 0 评论 -
云HBase小组成功抢救某公司自建HBase集群,挽救30+T数据
云栖君导读: 使用过开源HBase的人都知道,运维HBase是多么复杂的事情,集群大的时候,读写压力大,配置稍微不合理一点,就可能会出现集群状态不一致的情况,糟糕一点的直...转载 2018-04-20 00:00:00 · 349 阅读 · 0 评论 -
Spark Streaming 中管理 Kafka Offsets 的几种方式
本文转载自:https://www.jianshu.com/p/ef3f15cf400d(点击下面 阅读原文 即可进入)英文原文:http://blog.cloudera...转载 2018-04-18 13:21:25 · 626 阅读 · 0 评论 -
HBase高可用集群运维实践
随着越来越多的业务选择HBase作为存储引擎,对HBase的可用性要求也越来越高,对于HBase的运维也提出了新的挑战。目前运维集群超过30+,而且接入的业务类型繁多,对于性能要求也不完全一样,这是今年面临的问题。从15年开始,结合京东的业务情况,基于大数据平台,实现用户接入使用全流程自动化。而今年,我们主要从集群层面上提升集群可用性。1控制隔离——rsgroup在94版本中,经常困扰我们的一个问转载 2018-03-05 00:00:00 · 622 阅读 · 0 评论 -
大数据最佳实践 | HBase客户端
1减少RPC调用的方法 1.1.问题提出HBase中rowkey是索引,任何对全表的扫描或是统计都需要用到scan接口,一般都是通过next()方法获取数据。而每一个next()调用都会为每行数据生成一个单独的RPC请求,这样会产生大量的RPC请求,性能不会很好。1.2.解决思路如果执行一次RPC请求就可以获取多行数据,那肯定会大大提高系统的性能。这一块主要分为面向行级的缓存以及面向列级的缓存:1转载 2018-01-11 00:00:00 · 842 阅读 · 0 评论 -
HBase在滴滴出行的应用场景和最佳实践
本文主要介绍HBase在滴滴内部的一些典型使用场景,如何设计整个业务数据流,让平台开发者与用户建立清晰、明确、良好的合作关系背景对接业务类型HBase是建立在Hadoop生态之上的Database,源生对离线任务支持友好,又因为LSM树是一个优秀的高吞吐数据库结构,所以同时也对接了很多线上业务。在线业务对访问延迟敏感,并且访问趋向于随机,如订单、客服轨迹查询。离线业务通常是数仓的定时大批量处理任务转载 2017-12-16 00:00:00 · 1613 阅读 · 2 评论 -
HBase原理和设计
作者:Jiang Hongxiang来源:比特科技简介HBase —— Hadoop Database的简称,Google BigTable的另一种开源实现方式,从问世之初,就为了解决用大量廉价的机器高速存取海量数据、实现数据分布式存储提供可靠的方案。从功能上来讲,HBase不折不扣是一个数据库,与我们熟悉的Oracle、MySQL、MSSQL等一样,对外提供数据的原创 2017-11-23 00:00:00 · 425 阅读 · 0 评论 -
Phoenix边讲架构边调优
一 基础架构详解1 概念讲调优之前,需要大家深入了解phoenix的架构,这样才能更好的调优。Apache Phoenix在Hadoop中实现OLTP和运营分析,实现低延迟应用是通过结合下面两个优势:具有完整ACID事务功能的标准SQL和JDBC API的强大功能通过利用HBase作为后台存储,为NoSQL世界提供了late-bound, schema-on-re原创 2017-11-26 00:00:00 · 3071 阅读 · 0 评论 -
HBase比较高阶的调优指南
JVM调优内存调优一般安装好的HBase集群,默认配置是给Master和RegionServer 1G的内存,而Memstore默认占0.4,也就是400MB。显然RegionServer...转载 2021-03-04 17:35:00 · 512 阅读 · 1 评论 -
Hbase、Kudu和ClickHouse全视角对比
Hbase、Kudu和ClickHouse横向对比V2.0前言Hadoop生态圈的技术繁多。HDFS一直用来保存底层数据,地位牢固。Hbase作为一款Nosql也是Hadoop生态圈的核心...转载 2021-02-18 17:40:31 · 361 阅读 · 0 评论 -
10大HBase常见运维工具整理
摘要:HBase自带许多运维工具,为用户提供管理、分析、修复和调试功能。本文将列举一些常用HBase工具,开发人员和运维人员可以参考本文内容,利用这些工具对HBase进行日常管理和运维。...转载 2020-12-08 11:47:00 · 1551 阅读 · 0 评论 -
Hbase Bulkload 原理|面试必备
当需要大批量的向Hbase导入数据时,我们可以使用Hbase Bulkload的方式,这种方式是先生成Hbase的底层存储文件 HFile,然后直接将这些 HFile 移动到Hbase的...转载 2020-11-10 08:59:49 · 1305 阅读 · 0 评论 -
通过BulkLoad快速将海量数据导入到HBase
在第一次建立HBase表的时候,我们可能需要往里面一次性导入大量的初始化数据。我们很自然地想到将数据一条条插入到HBase中,或者通过MR方式等。但是这些方式不是慢就是在导入的过程的占用...转载 2020-10-06 22:30:27 · 211 阅读 · 0 评论 -
HBase运维:如何逆向修复HBase元数据表
转载自| HBase技术社区微信号 | hbasegroup最近知识星球有人问浪尖,自己的hbase集群元数据丢失了,但是数据还在,是否能够修复,其实这种情况下利用数据的hfile去...转载 2020-09-26 22:37:55 · 1322 阅读 · 0 评论 -
亿级数据从 MySQL 到 Hbase 的三种同步方案与实践
1.导语大家好,我是光城,下面是我之前在gitchat上发布的一个资料,今天全部开源!源码全部存放在本人github仓库,地址:https://github.com/Light-City...转载 2020-08-28 15:53:34 · 872 阅读 · 0 评论 -
回顾 | HBase架构与应用场景.ppt
正文MySQL + HBase 是我们日常应用中常用的两个数据库,分别解决应用的在线事务问题和大数据场景的海量存储问题。本文内容适合初次理解HBase的读者,包括技术、功能及场景,也欢迎...转载 2020-08-09 23:40:58 · 252 阅读 · 0 评论 -
Hbase优化
本文对hbase集群进行优化,主要涵盖硬件和操作系统,网络通信,JVM,查询,写入,核心服务,配置参数,zookeeper,表设计等多方面。我们对hbase的应用主要是用户画像,根据自身...原创 2020-08-02 23:06:22 · 237 阅读 · 0 评论 -
HBase 数据迁移到 Kafka 实战
文章作者:哥不是小萝莉编辑整理:Hoh Xil内容来源:https://www.cnblogs.com/smartloli/p/11521659.html1.概述在实际的应用场景中,...转载 2020-06-08 00:01:02 · 379 阅读 · 0 评论 -
58HBase平台实践和应用—时序数据库篇
OpenTSDB是一个分布式、可伸缩的时序数据库,支持高达每秒百万级的写入能力,支持毫秒级精度的数据存储,不需要降精度也可以永久保存数据。其优越的写性能和存储能力,得益于...转载 2019-10-28 19:06:45 · 529 阅读 · 0 评论 -
hbase性能优化之bloomfilter
简介不了解bloomfilter的可以参考我以前的文章:海量数据处理之BloomFilter在判断元素是否存在的情形确实很高效。在hbase中的应用也是如此,可以使用bl...原创 2019-01-02 23:22:52 · 2298 阅读 · 0 评论 -
Hbase Rowkey设计及索引
开头,先功夫一个好消息,浪尖的微信公众号支持内容搜索了,入口请点击原文阅读。https://data.newrank.cn/m/s.html?s=PSkwPS48MT87...转载 2018-11-19 00:00:00 · 508 阅读 · 0 评论