大数据
文章平均质量分 97
dounine
这个作者很懒,什么都没留下…
展开
-
自定义Rowkey规则读取Hbase数据
在Flink中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有Spark读取的例子。使用教程Md5Util.javaimport org.apache.commons.codec.binary.Hex;impo...原创 2018-08-13 21:46:12 · 765 阅读 · 0 评论 -
Spark SerializedLambda错误解决方案
在IDEA下开发Spark程序会遇到Lambda异常,下面演示异常及解决方案。例子import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spa...原创 2018-08-13 21:47:04 · 3866 阅读 · 2 评论 -
Flink - CEP 实时分用户析攻击行为
在这样一种场景,用户的登录行为数据都会以LoginEvent的行式记录下来,每次失败或者成功以及错误都会记录下来,一般客户端都会进行检验,正常的用户不可能在一秒钟之内登录错误多次,这时候我就得怀疑这部分数据是不是机器对用户的密码进行暴力破解,如果有需要我们得将这些攻击IP进行封锁。Flink - CEP 优点复杂性:多个流join,窗口聚合,事件序列或patterns检测低延迟:秒或毫秒...原创 2018-11-19 01:22:47 · 5041 阅读 · 7 评论 -
大数据 Flink 1.8 最新版本使用
Flink 1.8 的快照版本已经发布,我们可以来使用一下,当然了,过程肯定还是有一些曲折的,这里已经帮大家给记录下来了使用过程下载git clone https://github.com/apache/flink编译(大概有20分钟这样)cd flinkmvn clean package -DskipTests编译通过版本在build-target目录中[admin@st...原创 2018-11-19 01:24:31 · 3343 阅读 · 0 评论 -
大数据平台docker一键搭建
想不想快速拥有大数据环境?如何才能一键安装?傻瓜式引导?这里就有你想要的,我们可以使用hortonworks出品的sandbox-hdp来搭建,它是建立在docker环境之上的集群,很轻易的主可以把环境搭建起来。使用方法这里我会使用HDP的最新版本3.0.1作为演示,包含的组件版本如下组件版本HDFS3.1.1YARN3.1.1MapReduce2...原创 2018-12-07 17:20:31 · 6764 阅读 · 3 评论 -
Hive 创建外部表失败解决方案
在hdp平台上,使用hive控制台创建一个hbase的外部表,出现ERROR : FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:org.apache.hadoop.hbase.TableNotFoundException,原因是启动...原创 2018-12-07 17:26:25 · 2959 阅读 · 0 评论 -
HDFS_DELEGATION_TOKEN 还原及解决方案
HDFS_DELEGATION_TOKEN 这个BUG在很多文章中都出现着,讲了很多原理,但是只给出了官方引用地扯,完全没有给出如何解决,我们线上的业务就有着这样的问题,7天一到马上出现这问题了,官方明明说这个bug修复了呀,因为我们使用的版本是比较新的,理论上不会有这样的问题才对,可是偏偏就有了,没办法,只能上了,花了两天的时间发现了这个问题,下面会还原这个错误及给出解决方案。版本列表...原创 2018-12-29 17:21:43 · 4451 阅读 · 0 评论 -
Spark 数据源jdbc2新增upsert功能
在spark的数据源中,只支持Append, Overwrite, ErrorIfExists, Ignore,这几种模式,但是我们在线上的业务几乎全是需要upsert功能的,就是已存在的数据肯定不能覆盖,在mysql中实现就是采用:ON DUPLICATE KEY UPDATE,有没有这样一种实现?官方:不好意思,不提供,dounine:我这有呀,你来用吧。哈哈,为了方便大家的使用我已经把项目...原创 2019-02-21 11:10:10 · 2854 阅读 · 3 评论 -
Hbase - 表导出CSV数据
新鲜文章,昨天刚经过线上验证过的,使用它导出了3亿的用户数据出来,花了半个小时,性能还是稳稳的,好了不吹牛皮了,直接上代码吧。MR考查了Hbase的各种MR,没有发现哪一个是能实现的,如果有请通知我,我给他发红包。所以我们只能自己来写一个MR了,编写一个Hbase的MR,官方文档上也有相应的例子。我们用来加以化妆就得到我们想要的了。导出的CSV格式为admin,22,北京admi...原创 2019-07-10 10:15:48 · 1364 阅读 · 0 评论