王胡雄-CSDN博客

原创 Github以及Git的使用流程

// 初始化版本库git initgit add 文件git add .// 废弃掉还未add操作的文件修改操作git checkout 文件// 费起到已经add 但未commit的文件修改操作git reset HEAD 文件git checkout 文件// 对比add库里的文件和工作区间里的文件的不同git diff HEAD -- 文件分析...

2019-09-13 20:46:50 231

原创 java将异常完整的堆栈信息作为告警信息

思路：获取异常流，将异常流输出为Stringpublic static String stringifyException(final Throwable e) { if (e == null) { return "(nothing throwable)"; } try { StringWriter stm = new StringWriter(); PrintWriter wrt

2021-09-14 14:27:08 362

什么是数据倾斜？数据倾斜问题是分布式架构的重要难题，它破坏了MPP架构中各个节点对等的要求，导致单节点（倾斜节点）所存储或者计算的数据量远大于其他节点，所以会造成以下危害：存储上的倾斜会严重限制系统容量，在系统容量不饱和的情况下，由于单节点倾斜的限制，使得整个系统容量无法继续增长。FLINK中，如何定位数据倾斜？1、进入flink-webUI界面2、哪类算子易出现数据倾斜？3、为什么keyedProcess易出现数据倾斜？ 1)非KeyProcess的分区...

2021-09-12 16:38:39 2646

原创 Java toString Json模板

在idea中 alt+ins 调出toString,选择点击settings3. 新增Templates4. 粘贴此模板public java.lang.String toString() {final java.lang.StringBuilder sb = new java.lang.StringBuilder("{");#set ($i = 0)#foreach ($member in $members)#if ($i == 0)sb.append("######el..

2021-08-03 17:20:01 448

原创 Flink 延迟流用法

public class DelayKeyStreamProcess extends KeyedProcessFunction<Integer, Iterable<HashMap<String, Object>>, Iterable<HashMap<String, Object>>> { private transient MapState<Long, List<Iterable<HashMap<String, O.

2021-07-26 20:33:40 740 1

转载 SparkSQL 中group by、grouping sets、rollup和cube方法详解

https://blog.csdn.net/u011622631/article/details/84786777?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1&utm_source=distribute.pc_relevant.none-task-blog-BlogComme...

2020-04-15 00:11:37 344

原创 Java 监听器

主要流程1. 相互注册实现思路：监听器作为事件源的属性，被注册到事件源上。事件源作为监听器的监听方法的参数，被注册到监听器上。触发监听：事件源中应存在一个方法，在事件源的属性值发生改变后，调用监听器的监听方法，并将自身作为参数传给监听器监听器通过获取到的事件源的属性值，对事件源属性的改变进行响应处理...

2020-01-19 11:17:55 262

原创 hbase 无法连接

记一次HbaseClient的bug：①本地测试可正常连接,HbaseClient版本和Ambari版本一致，可正常写入②打jar包在集群生产环境下运行，log日志显式发现ConnectionFactory.createConnection(conf); 此处一直等待，ConnectionFactory.createConnection 无法获取connection且不报错，最后返回null...

2020-01-04 14:56:07 1048

原创手动触发Hadoop checkpoint

1.问题出现现象：因HDP集群重启或其他原因，导致hdfs 报alert 警告，警告内容为：解决方案：先去查看一下 current目录下的image 上次合并的最后时间：当最后一次的image快照时间不符合我们设定的时间间隔或文件大小限制（如下图）时，执行三条命令手动触发sudo -u hdfs hdfs dfsadmin -sa...

2019-12-30 15:59:32 870

原创 _ssl.c:618

异常：Ambari-agentERROR 2019-02-13 17:03:13,563 NetUtil.py:96 - EOF occurred in violation of protocol (_ssl.c:618)ERROR 2019-02-13 17:03:13,563 NetUtil.py:97 - SSLError: Failed to connect. Please chec...

2019-12-30 10:35:10 1605 1

原创 Kafka 的监测

在Git上有https://github.com/759502416/KafkaMonitor

2019-11-26 20:01:27 136

原创 SparkSQL java.lang.ArrayIndexOutOfBoundsException

如果你是用的Insert into table 你的表 partition(xxxx) as select xxxx from xxxx报的java.lang.ArrayIndexOutOfBoundsException第一：检查字段数和名称是否相等如果确定没问题第二：删除掉你的表的 tableProperties如果有用，请点赞...

2019-11-21 14:46:14 1678

原创 JVM架构

一.架构设计1.架构图2.基本说明1）程序计数器：线程私有，唯一没有OOM的区域2）虚拟机栈：线程私有，基本类型，对象引用，请求深度大于所允许深度报栈溢出，请求扩展内存不足，报内存溢出异常3）本地方法栈：线程私有，为虚拟机提供Native方法服务，报OOM和栈溢出4）堆：对象实例，无法扩展时报OOM5）方法区：已被加载的类信息，常量，静...

2019-10-24 23:36:14 280

原创 Java 集合图

摘自基于JAVA8的 java编程思想（第五版），下图是文档截图，Java集合简图

2019-10-17 10:24:54 176

原创判断OOM是否为本机直接内存（direct Memory）溢出

本机直接内存溢出 DirectMemory容量可通过-XX：MaxDirectMemorySize指定，如果不指定，则默认与Java 堆最大值（-Xmx指定）一样，代码清单2-9越过了DirectByteBuffer类，直接通过反射获取 Unsafe实例进行内存分配（Unsafe类的getUnsafe（）方法限制了只有引导类加载器才会返回实例，也就是设计者希望只有rt.jar中的...

2019-10-16 17:57:18 1016

原创 Spark RDD中有哪些东西

RDD中有以下属性：id : RDD的uniqueID，比如presist时就是根据RDD的id来标记name： RDD的特有的名称，我们可以指定分区器（partitioner），血缘依赖（lineage）：源码中体现的名词叫 dependencies上下文对象（SparkContext），存储级别对象(storegelevel)：checkpointd...

2019-09-18 11:31:50 202

原创 SparkStreaming kafka整合源码解析

另外一个比较详细的博主链接https://blog.csdn.net/dax1n/article/details/61917718 这是真大佬！Spark Streaming 和kafka 连接利用的是kafkaUtil首先准备一部分初始代码： //创建SparkStreaming 对象 val conf: SparkConf = new SparkConf().setA...

2019-09-17 18:22:43 747 2

原创 Spark的shuffle和mr的区别？

问题分析：对hadoop和spark的shullfe过程理解不透彻问题解答： mr的shufflemapShuffle数据存到hdfs中是以块进行存储的，每一个块对应一个分片，maptask就是从分片中获取数据的在某个节点上启动了mapTask,mapTask读取是通过k-v来读取的,读取的数据会放到环形缓存区，这样做的目的是为了防止IO的访问次数,然后环形缓存区的内存达到一定的阀值...

2019-09-13 14:37:07 786

原创 SparkMl，随机森林预测模型demo

// 获取到hive中的数据train_data= spark.sql("select * from events.train_data").withColumnRenamed("user_interested", "label")// 将字段全部双精度df = train_data.select([col(c).cast(DoubleType()) for c in train_dat...

2019-09-10 16:46:54 661

原创用户画像

1.术语解释名称解释标签:用户特征的抽象，用以描述具有某一相同特征的用户群体，依赖于平台海量的用户数据。如性别标签‘男’，表示平台的男性用户群体;标签有很多种分类方式，从挖掘的方式.上可分为规则标签、模型标签私域标签:表示特定店铺的用户标签,如7天内购买过小米旗舰店手机’;私域标签只能给指定的商家使用公域标签:平台商家共享的标签;如性别标签、地域标签、平台消费能力标签、类目消费能力标...

2019-08-11 13:50:16 244

原创大数据面试题（持续更新）

1.讲述一下mapreduce的流程（shuffle的sort，partitions，group）首先是 Mapreduce经过SplitInput 输入分片决定map的个数在用Record记录 key value。然后分为以下三个流程： Map：输入 key（long类型偏移量） value（Text一行字符串）输出 key value...

2019-08-05 16:55:50 401

转载 Graphx 学习以及Pregel算法解析

Spark中的Pregel定义如下：def pregel[A: ClassTag]( initialMsg: A, maxIterations: Int = Int.MaxValue, activeDirection: EdgeDirection = EdgeDirection.Either)( vprog: (Ver...

2019-08-05 16:36:09 384

原创 Spark worker driver application的注册流程源码分析

2019-08-02 16:20:12 136

原创 Spark master主备切换源码以及流程

/** * ZOOKEEPER: 集群元数据持久化到zookeeper,当master出现异常的时候，zookeeper会通过选举机制选举出新的Master,新的Master接管集群时需要从zookeeper获取持久化信息，并根据这些信息恢复集群状态。 * FILESYSTEM: 集群的元数据持久化到文件系统，当Master出现异常的时候，只要在该机器上重启Master，启动后...

2019-08-02 13:53:02 400

原创 SparkContext的架构流程图

这里是SparkContext.createTaskScheduler(),匹配模式，创建TaskScheduler，创建SparkSchedulerBackend,然后 TaskSchedulerImpl调用initialize方法，此方法会将SparkSchedulerBackend对象传进去，填充TaskSchedulerImpl的backend对象。并且会创建pools（资源调度池），...

2019-08-01 21:55:09 238

原创 Spark yarn-cluster和yarn-client模式架构

2019-08-01 19:18:17 172

原创 Hadoop 集群间访问

hadoopdistcphdfs://master1:9999/foo/barhdfs://master2:9999/bar/foo在A集群上执行该命令将文件传输到B集群上

2019-08-01 10:52:31 762

原创 Hive 如何用sort by 做全局排序

sort by 字段 limit 数字执行计划，先在各个reduce上执行排序，取前M个数据，然后汇总所有分区的数据，取M个数据

2019-08-01 10:37:10 3064

原创 Spark SQL 入门

1.RDD转DataFrameval rdd = spark.sparkContext.textFile("xxxxx")val rdd2 = rdd.map(x=>{x.replace("\"","").split(",")}).map(x=>Row(x(0).toInt,x(1),x(2),x(3),x(4),x(5),x(6),x(7),x(8).toInt))...

2019-07-30 17:58:40 200

原创 Spark tuple计算 bug

2019-07-26 10:55:00 274

原创 Python参数

4.7.1. 参数默认值最有用的形式是对一个或多个参数指定一个默认值。这样创建的函数，可以用比定义时允许的更少的参数调用，比如:def ask_ok(prompt, retries=4, reminder='Please try again!'): while True: ok = input(prompt) if ok in ('y', 'ye'...

2019-07-24 14:10:22 167

原创 Error: ERROR 204 (22008): Values in UPSERT must evaluate to a constant. (state=22008,code=204)

phonenix中的字符串参数要用单引号，不要用双引号

2019-07-18 22:57:50 993

原创 Spark架构分析（一）

spark-submit使用standalone模式提交的时候，会通过反射的方式，创建和构造一个DriverActor进程出来Driver进程执行我们编写的代码，构造出SparkContext，SparkContext在初始化的时候，做的最重要的两件事情，就是构造出 DAGScheduler和TaskScheduler.构造TaskScheduler时，通过自己的后台进程进程去连...

2019-07-16 18:04:43 166

原创 Hbase 个人总结（较杂）

Hbase！！Hbase各节点的时间应该统一1.最终一致性2.避免冗余3.维护一致性，处理事务1）一致性2）可用性3）分布式处理跳表+布隆过滤器四维结构rowkey,column family ,column,ts ====valueWAL 预写日志 1.所有的数据，都在磁盘和内存中存储了完整的...

2019-07-15 15:45:48 302

转载 Spark存储级别的选择

Spark中一个很重要的能力是将数据持久化（或称为缓存），在多个操作间都可以访问这些持久化的数据。当持久化一个RDD时，每个节点的其它分区都可以使用RDD在内存中进行计算，在该数据上的其他action操作将直接使用内存中的数据。这样会让以后的action操作计算速度加快（通常运行速度会加速10倍）。缓存是迭代算法和快速的交互式使用的重要工具。RDD可以使用persis...

2019-05-22 17:22:16 3503

转载 Spark 常用的 transformations（转换）和 actions 操作

转自http://cwiki.apachecn.org/pages/viewpage.action?pageId=2886202下表列出了一些Spark常用的transformations（转换）。详情请参考RDD API文档（Scala，Java，Python，R）和pair RDD函数文档（Scala，Java）。 Transformation（转换） ...

2019-05-22 16:10:33 463

原创 Scala的foldLeft /：和foldRight :\的原理理解以及区别对照

写在前面：阅读本文的前提是已掌握Scala的基本语法1.左折叠foldLeft让我们来看看下面的例子这是左折叠的一个典型例子，List(1,2,3) 是我们的操作主体 foldLeft是方法 0 是操作结果集（个人理解），这里的0是指初始值为0 后面是（sum，i）=>sum+i 是操作函数，我们可以用任意合乎语法规则的函数来替换它，完成个...

2019-05-20 11:58:13 1325

原创 Scala中List的map和flatMap的区别

写在前面：map方法的核心是映射每个元素并进行操作后将结果保存为一个列表，最后汇集所有的结果列表作为列表元素形成一个新的列表 flatMap房的核心是先映射每个元素，然后进行操作，然后进行扁平化处理，最后汇集所有进行扁平化处理的结果集形成一个新的列表（扁平化：简而言之就是去除所有的修饰）1.map的例子（摘自Scala编程）2.map的例子（...

2019-05-18 14:09:15 4127

原创 HDFS的JAVA上传下载简单实现

1.HDFS的Java基本操作非常重要2.Haoop的常用shell操作 1.hadoop fs -ls hdfs://haoop1:8020/目录 2.hadoop fs -copyFromLocal|put 文件地址目的目录 3.hadoop fs -copyToLocal|get 文件地址目的目录 ...

2019-04-01 19:30:38 5524

原创 Hadoop分布式搭建（虚拟机）001

本文由博主--Bear Wang 手敲，如有雷同，不胜荣幸。欢迎指错！博主QQ759502416 答案：王胡雄1.修改ip，关闭防火墙（主机和虚拟机都关闭）使虚拟机能ping同主机2.修改主机名以及映射 1） sudo vim /etc/hostname 2) sudo vim /etc/hosts （将所有的域名和映射都写到文件中） 3.解压JD...

2019-03-30 14:26:15 335

Hadoop权威指南增强版

空空如也