自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(40)
  • 资源 (1)
  • 收藏
  • 关注

原创 Github以及Git的使用流程

// 初始化版本库git initgit add 文件git add .// 废弃掉还未add操作的文件修改操作git checkout 文件// 费起到已经add 但未commit的文件修改操作git reset HEAD 文件git checkout 文件// 对比add库里的文件和 工作区间里的文件的不同git diff HEAD -- 文件 分析...

2019-09-13 20:46:50 210

原创 java将异常完整的堆栈信息作为告警信息

思路:获取异常流,将异常流输出为Stringpublic static String stringifyException(final Throwable e) { if (e == null) { return "(nothing throwable)"; } try { StringWriter stm = new StringWriter(); PrintWriter wrt

2021-09-14 14:27:08 319

原创 Flink数据倾斜以及解决之道

什么是数据倾斜?数据倾斜问题是分布式架构的重要难题,它破坏了MPP架构中各个节点对等的要求,导致单节点(倾斜节点)所存储或者计算的数据量远大于其他节点,所以会造成以下危害: 存储上的倾斜会严重限制系统容量,在系统容量不饱和的情况下,由于单节点倾斜的限制,使得整个系统容量无法继续增长。FLINK中,如何定位数据倾斜?1、进入flink-webUI界面2、哪类算子易出现数据倾斜?3、为什么keyedProcess易出现数据倾斜? 1)非KeyProcess的分区...

2021-09-12 16:38:39 2423

原创 Java toString Json模板

在idea中 alt+ins 调出toString,选择 点击settings3. 新增Templates4. 粘贴此模板public java.lang.String toString() {final java.lang.StringBuilder sb = new java.lang.StringBuilder("{");#set ($i = 0)#foreach ($member in $members)#if ($i == 0)sb.append("######el..

2021-08-03 17:20:01 400

原创 Flink 延迟流用法

public class DelayKeyStreamProcess extends KeyedProcessFunction<Integer, Iterable<HashMap<String, Object>>, Iterable<HashMap<String, Object>>> { private transient MapState<Long, List<Iterable<HashMap<String, O.

2021-07-26 20:33:40 692 1

转载 SparkSQL 中group by、grouping sets、rollup和cube方法详解

https://blog.csdn.net/u011622631/article/details/84786777?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1&utm_source=distribute.pc_relevant.none-task-blog-BlogComme...

2020-04-15 00:11:37 300

原创 Java 监听器

主要流程1. 相互注册实现思路:监听器作为事件源的属性,被注册到事件源上。事件源作为监听器的监听方法的 参数,被注册到监听器上。触发监听:事件源中应存在一个方法,在事件源的属性值发生改变后,调用监听器的监听方法,并将自身作为参数传给监听器监听器通过获取到的事件源的属性值,对事件源属性的改变进行响应处理...

2020-01-19 11:17:55 217

原创 hbase 无法连接

记一次HbaseClient的bug:①本地测试可正常连接,HbaseClient版本和Ambari版本一致,可正常写入②打jar包在集群生产环境下运行,log日志显式发现ConnectionFactory.createConnection(conf); 此处一直等待,ConnectionFactory.createConnection 无法获取connection且不报错,最后返回null...

2020-01-04 14:56:07 993

原创 手动触发Hadoop checkpoint

1.问题出现现象:因HDP集群重启或其他原因,导致hdfs 报alert 警告,警告内容为:解决方案:先去查看一下 current目录下的image 上次合并的最后时间:当最后一次的image快照时间不符合我们设定的 时间间隔 或 文件大小限制 (如下图)时,执行三条命令手动触发sudo -u hdfs hdfs dfsadmin -sa...

2019-12-30 15:59:32 779

原创 _ssl.c:618

异常:Ambari-agentERROR 2019-02-13 17:03:13,563 NetUtil.py:96 - EOF occurred in violation of protocol (_ssl.c:618)ERROR 2019-02-13 17:03:13,563 NetUtil.py:97 - SSLError: Failed to connect. Please chec...

2019-12-30 10:35:10 1524 1

原创 Kafka 的 监测

在Git上有https://github.com/759502416/KafkaMonitor

2019-11-26 20:01:27 102

原创 SparkSQL java.lang.ArrayIndexOutOfBoundsException

如果你是用的Insert into table 你的表 partition(xxxx) as select xxxx from xxxx报的java.lang.ArrayIndexOutOfBoundsException第一:检查字段数和名称是否相等 如果确定没问题第二:删除掉 你的表的 tableProperties如果有用,请点赞...

2019-11-21 14:46:14 1577

原创 JVM架构

一.架构设计1.架构图2.基本说明1)程序计数器:线程私有,唯一没有OOM的区域2)虚拟机栈:线程私有,基本类型,对象引用,请求深度大于所允许深度报栈溢出,请求扩展内存不足,报内存溢出异常3)本地方法栈:线程私有,为虚拟机提供Native方法服务,报OOM和栈溢出4)堆:对象实例,无法扩展时报OOM5)方法区:已被加载的类信息,常量,静...

2019-10-24 23:36:14 242

原创 Java 集合 图

摘自基于JAVA8的 java编程思想(第五版),下图是文档截图,Java集合简图

2019-10-17 10:24:54 151

原创 判断OOM是否为本机直接内存(direct Memory)溢出

本机直接内存溢出 DirectMemory容量可通过-XX:MaxDirectMemorySize指定,如果不指定,则默认与Java 堆最大值(-Xmx指定)一样,代码清单2-9越过了DirectByteBuffer类,直接通过反射获取 Unsafe实例进行内存分配(Unsafe类的getUnsafe()方法限制了只有引导类加载器才会返回 实例,也就是设计者希望只有rt.jar中的...

2019-10-16 17:57:18 962

原创 Spark RDD中有哪些东西

RDD中有以下属性:id : RDD的uniqueID,比如presist时就是根据RDD的id来标记name: RDD的特有的名称,我们可以指定分区器(partitioner),血缘依赖(lineage):源码中体现的名词叫 dependencies上下文对象(SparkContext),存储级别对象(storegelevel):checkpointd...

2019-09-18 11:31:50 167

原创 SparkStreaming kafka整合 源码解析

另外一个比较详细的博主链接https://blog.csdn.net/dax1n/article/details/61917718 这是真大佬!Spark Streaming 和kafka 连接 利用的是kafkaUtil首先准备一部分初始代码: //创建SparkStreaming 对象 val conf: SparkConf = new SparkConf().setA...

2019-09-17 18:22:43 674 2

原创 Spark的shuffle和mr的区别?

问题分析:对hadoop和spark的shullfe过程理解不透彻问题解答: mr的shufflemapShuffle数据存到hdfs中是以块进行存储的,每一个块对应一个分片,maptask就是从分片中获取数据的在某个节点上启动了mapTask,mapTask读取是通过k-v来读取的,读取的数据会放到环形缓存区,这样做的目的是为了防止IO的访问次数,然后环形缓存区的内存达到一定的阀值...

2019-09-13 14:37:07 752

原创 SparkMl,随机森林预测模型demo

// 获取到hive中的数据train_data= spark.sql("select * from events.train_data").withColumnRenamed("user_interested", "label")// 将字段全部双精度df = train_data.select([col(c).cast(DoubleType()) for c in train_dat...

2019-09-10 16:46:54 614

原创 用户画像

1.术语解释名称解释标签:用户特征的抽象,用以描述具有某一相同特征的用户群体,依赖于平台海量的用户数据。如性别标签‘男’,表示平台的男性用户群体;标签有很多种分类方式,从挖掘的方式.上可分为规则标签、模型标签私域标签:表示特定店铺的用户标签,如7天内购买过小米旗舰店手机’;私域标签只能给指定的商家使用公域标签:平台商家共享的标签;如性别标签、地域标签、平台消费能力标签、类目消费能力标...

2019-08-11 13:50:16 216

原创 大数据面试题(持续更新)

1.讲述一下mapreduce的流程(shuffle的sort,partitions,group) 首先是 Mapreduce经过SplitInput 输入分片 决定map的个数在用Record记录 key value。然后分为以下三个流程: Map: 输入 key(long类型偏移量) value(Text一行字符串) 输出 key value...

2019-08-05 16:55:50 343

转载 Graphx 学习以及Pregel算法解析

Spark中的Pregel定义如下:def pregel[A: ClassTag]( initialMsg: A, maxIterations: Int = Int.MaxValue, activeDirection: EdgeDirection = EdgeDirection.Either)( vprog: (Ver...

2019-08-05 16:36:09 345

原创 Spark worker driver application的注册 流程 源码分析

2019-08-02 16:20:12 108

原创 Spark master主备切换源码以及流程

/** * ZOOKEEPER: 集群元数据持久化到zookeeper,当master出现异常的时候,zookeeper会通过选举机制选举出新的Master,新的Master接管集群时需要从zookeeper获取持久化信息,并根据这些信息恢复集群状态。 * FILESYSTEM: 集群的元数据持久化到文件系统,当Master出现异常的时候,只要在该机器上重启Master,启动后...

2019-08-02 13:53:02 373

原创 SparkContext的架构流程图

这里是SparkContext.createTaskScheduler(),匹配模式,创建TaskScheduler,创建SparkSchedulerBackend,然后 TaskSchedulerImpl调用initialize方法,此方法会将SparkSchedulerBackend对象传进去,填充TaskSchedulerImpl的backend对象。并且会创建pools(资源调度池),...

2019-08-01 21:55:09 199

原创 Spark yarn-cluster和yarn-client模式架构

2019-08-01 19:18:17 142

原创 Hadoop 集群间访问

hadoopdistcphdfs://master1:9999/foo/barhdfs://master2:9999/bar/foo在A集群上执行该命令 将文件传输到B集群上

2019-08-01 10:52:31 712

原创 Hive 如何用sort by 做全局排序

sort by 字段 limit 数字 执行计划,先在各个reduce上执行排序,取前M个数据,然后汇总 所有分区的数据,取M个数据

2019-08-01 10:37:10 3021

原创 Spark SQL 入门

1.RDD转DataFrameval rdd = spark.sparkContext.textFile("xxxxx")val rdd2 = rdd.map(x=>{x.replace("\"","").split(",")}).map(x=>Row(x(0).toInt,x(1),x(2),x(3),x(4),x(5),x(6),x(7),x(8).toInt))...

2019-07-30 17:58:40 168

原创 Spark tuple计算 bug

2019-07-26 10:55:00 245

原创 Python参数

4.7.1. 参数默认值最有用的形式是对一个或多个参数指定一个默认值。这样创建的函数,可以用比定义时允许的更少的参数调用,比如:def ask_ok(prompt, retries=4, reminder='Please try again!'): while True: ok = input(prompt) if ok in ('y', 'ye'...

2019-07-24 14:10:22 129

原创 Error: ERROR 204 (22008): Values in UPSERT must evaluate to a constant. (state=22008,code=204)

phonenix中的字符串参数要用单引号,不要用双引号

2019-07-18 22:57:50 944

原创 Spark架构分析(一)

spark-submit使用standalone模式提交的时候,会通过反射的方式,创建和构造一个DriverActor进程出来Driver进程执行我们编写的代码,构造出SparkContext,SparkContext在初始化的时候,做的最重要的两件事情,就是构造出 DAGScheduler和TaskScheduler.构造TaskScheduler时,通过自己的后台进程进程去连...

2019-07-16 18:04:43 129

原创 Hbase 个人总结(较杂)

Hbase!!Hbase各节点的时间应该统一1.最终一致性2.避免冗余3.维护一致性,处理事务1)一致性2)可用性3)分布式处理跳表+布隆过滤器四维结构rowkey,column family ,column,ts ====valueWAL 预写日志 1.所有的数据,都在磁盘和内存中存储了完整的...

2019-07-15 15:45:48 271

转载 Spark存储级别的选择

Spark中一个很重要的能力是将数据持久化(或称为缓存),在多个操作间都可以访问这些持久化的数据。当持久化一个RDD时,每个节点的其它分区都可以使用RDD在内存中进行计算,在该数据上的其他action操作将直接使用内存中的数据。这样会让以后的action操作计算速度加快(通常运行速度会加速10倍)。缓存是迭代算法和快速的交互式使用的重要工具。RDD可以使用persis...

2019-05-22 17:22:16 3436

转载 Spark 常用的 transformations(转换)和 actions 操作

转自http://cwiki.apachecn.org/pages/viewpage.action?pageId=2886202下表列出了一些Spark常用的transformations(转换)。详情请参考RDD API文档(Scala,Java,Python,R)和pair RDD函数文档(Scala,Java)。 Transformation(转换) ...

2019-05-22 16:10:33 411

原创 Scala的foldLeft /:和foldRight :\的原理理解以及区别对照

写在前面:阅读本文的前提是已掌握Scala的基本语法1.左折叠foldLeft让我们来看看下面的例子这是左折叠的一个典型例子,List(1,2,3) 是我们的操作主体 foldLeft是方法 0 是操作结果集(个人理解),这里的0是指初始值为0 后面是(sum,i)=>sum+i 是操作函数,我们可以用任意合乎语法规则的函数来替换它,完成个...

2019-05-20 11:58:13 1258

原创 Scala中List的map和flatMap的区别

写在前面:map方法的核心是映射每个元素并进行操作后将结果保存为一个列表,最后汇集所有的结果列表作为列表元素形成一个新的列表 flatMap房的核心是先映射每个元素,然后进行操作,然后进行扁平化处理,最后汇集所有进行扁平化处理的结果集形成一个新的列表(扁平化:简而言之就是去除所有的修饰)1.map的例子(摘自Scala编程)2.map的例子(...

2019-05-18 14:09:15 4030

原创 HDFS的JAVA上传下载简单实现

1.HDFS的Java基本操作非常重要2.Haoop的常用shell操作 1.hadoop fs -ls hdfs://haoop1:8020/目录 2.hadoop fs -copyFromLocal|put 文件地址 目的目录 3.hadoop fs -copyToLocal|get 文件地址 目的目录 ...

2019-04-01 19:30:38 5468

原创 Hadoop分布式搭建(虚拟机)001

本文由博主--Bear Wang 手敲,如有雷同,不胜荣幸。 欢迎指错!博主QQ759502416 答案 :王胡雄1.修改ip,关闭防火墙(主机和虚拟机都关闭)使虚拟机能ping同主机2.修改主机名以及映射 1) sudo vim /etc/hostname 2) sudo vim /etc/hosts (将所有的域名和映射都写到文件中) 3.解压JD...

2019-03-30 14:26:15 297

Hadoop权威指南增强版

绝对良心资源,是非常非常非常非常完善的Hadoop权威指南的增强版。资源不好,可以喷我!

2019-04-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除