hbase
dounine
这个作者很懒,什么都没留下…
展开
-
自定义Rowkey规则读取Hbase数据
在Flink中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark读取的例子。使用教程Md5Util.javaimport org.apache.commons.codec.binary.Hex;impo...原创 2018-08-13 21:46:12 · 765 阅读 · 0 评论 -
Spark+Hbase 亿级流量分析实战( 留存计算)
这篇已经是本系列文章的第五篇了,上一篇大猪已经介绍 PV/UV 的实现方式以及程序的计算逻辑,本篇大猪继续为小伙伴介绍 留存 ,看在Spark+Hbase的架构中到底是怎么实现这种指标的。大猪 的习惯就是能上图就尽量不BB,好的图是会说话的,大猪 也在努力实现中。详细分析过程大猪25通过某篇文章注册了简书帐号,26去浪去了。27再次登录简书,小伙伴猜猜是哪天的几日留存?...原创 2019-03-28 23:50:05 · 700 阅读 · 0 评论 -
Spark+Hbase 亿级流量分析实战( PV/UV )
作为一个百亿级的流量实时分析统计系统怎么能没有PV/UV这两经典的超级玛丽亚指标呢,话说五百年前它俩可以鼻祖,咳咳…,不好意思没忍住,多嘴,回归正文,大猪 在上一篇已经介绍了 小巧高性能ETL程序设计与实现 了,到现在,我们的数据已经落地到Hbase上了,而且日志的时间也已经写到Mysql了,万事都已经具备了,接下来我们就要撸指标了,先从两个经典的指标开始。程序流程在运行指标之前我们有必要...原创 2019-03-28 00:25:08 · 1101 阅读 · 0 评论 -
Spark+Hbase 亿级流量分析实战(数据结构设计)
背景靠文章生存的大厂们简书/小红书/CSDN(PS:好吧你们仨记得给我广告费),对优秀的文章进行大数据分析的工作必不可以少了,本系列文章将会从关于文章的各个维度进行实战分析,这系列文章新手可借着踏入大数据研发的大门,至于大数据的大佬们可以一起来相互伤害,至少为什么取名为 ‘‘百亿级流量实时分析统计’’ 看完后整个系列的文章你就知道了,相信大家都是会举一反三的孩子们。作者网名:大猪佩琪姓名...原创 2019-03-23 18:22:19 · 654 阅读 · 0 评论 -
Spark+Hbase 亿级流量分析实战(小巧高性能的ETL)
在上一篇文章 大猪 已经介绍了日志存储设计方案 ,我们数据已经落地到数据中心上了,那接下来如何ETL呢?毕竟可是生产环境级别的,可不能乱来。其实只要解决几个问题即可,不必要引入很大级别的组件来做,当然了各有各的千秋,本文主要从 易懂、小巧 、简洁、 高性能 这三个方面去设计出发点,顺便还实现了一个精巧的 Filebeat。设计loghub功能要实现的功能就是扫描每天的增量日志并写入Hba...原创 2019-03-29 18:01:23 · 938 阅读 · 0 评论 -
Spark+Hbase 亿级流量分析实战(日志存储设计)
背景接着上篇文章 百亿级流量实时分析统计 - 数据结构设计 我们已经设计好了日志的结构,接下来我们就准备要开始撸代码了,我最喜欢这部分的环节了,可是一个上来连就撸代码的程序肯定不是好程序员,要不先设计设计流程图?那来吧!!!流程图设计一用户发起文章操作,发起请求日志日志将由SLB服务器进行负载到日志打点服务器。NSA将作为日志收集中心进行存储,也可以使用rsync把节点上的日志同...原创 2019-03-25 00:01:21 · 1318 阅读 · 2 评论 -
来、这里有Hbase导出CSV格式数据的文章
新鲜文章,昨天刚经过线上验证过的,使用它导出了3亿的用户数据出来,花了半个小时,性能还是稳稳的,好了不吹牛皮了,直接上代码吧。MR考查了Hbase的各种MR,没有发现哪一个是能实现的,如果有请通知我,我给他发红包。所以我们只能自己来写一个MR了,编写一个Hbase的MR,官方文档上也有相应的例子。我们用来加以化妆就得到我们想要的了。导出的CSV格式为admin,22,北京admi...原创 2019-02-21 11:13:43 · 615 阅读 · 0 评论 -
Hbase 迁移数据[导出,导入]
有没有这样一样情况,把一个集群中的某个表导到另一个群集中,或者hbase的表结构发生了更改,但是数据还要,比如预分区没做,导致某台RegionServer很吃紧,Hbase的导出导出都可以很快的完成这些操作。环境使用现在环境上面有一张表logTable,有一个ext列簇但是没有做预分区,虽然可以强制拆分表,但是split的start,end范围无法精确控制。方式一 (先导出再导出)...原创 2019-01-25 00:44:39 · 614 阅读 · 0 评论 -
HDFS_DELEGATION_TOKEN 还原及解决方案
HDFS_DELEGATION_TOKEN 这个BUG在很多文章中都出现着,讲了很多原理,但是只给出了官方引用地扯,完全没有给出如何解决,我们线上的业务就有着这样的问题,7天一到马上出现这问题了,官方明明说这个bug修复了呀,因为我们使用的版本是比较新的,理论上不会有这样的问题才对,可是偏偏就有了,没办法,只能上了,花了两天的时间发现了这个问题,下面会还原这个错误及给出解决方案。版本列表...原创 2018-12-29 17:21:43 · 4451 阅读 · 0 评论 -
Hbase kerberos认证问题
KrbException: Server not found in Kerberos database (7) - LOOKING_UP_SERVER>>> KdcAccessibility: remove storm1.starsriver.cn at sun.security.krb5.KrbTgsRep.<init>(KrbTgsRep.java:73...原创 2018-08-13 21:48:23 · 4893 阅读 · 0 评论 -
Hbase - 表导出CSV数据
新鲜文章,昨天刚经过线上验证过的,使用它导出了3亿的用户数据出来,花了半个小时,性能还是稳稳的,好了不吹牛皮了,直接上代码吧。MR考查了Hbase的各种MR,没有发现哪一个是能实现的,如果有请通知我,我给他发红包。所以我们只能自己来写一个MR了,编写一个Hbase的MR,官方文档上也有相应的例子。我们用来加以化妆就得到我们想要的了。导出的CSV格式为admin,22,北京admi...原创 2019-07-10 10:15:48 · 1364 阅读 · 0 评论