自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark性能优化之-数据倾斜

文章目录概述现象和判定方式数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合+全局聚合)解决方案五:将reduce join转为map join解决方案六:采样倾斜key并分拆join操作解决方案七:使用随机前缀和扩容RDD进行

2022-05-19 15:17:54 323

原创 Spark性能优化之-资源调优

文章目录概述Spark作业基本运行原理资源参数调优num-executorsexecutor-memoryexecutor-coresdriver-memoryspark.default.parallelismspark.storage.memoryFractionspark.shuffle.memoryFraction资源参数参考示例概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道

2022-05-19 15:14:48 335

原创 Spark性能优化之-开发调优

文章目录概述:原则一:避免创建重复的RDD原则二:尽可能复用同一个RDD原则三:对多次使用的RDD进行持久化Spark的持久化级别如何选择一种最合适的持久化策略原则四:尽量避免使用shuffle类算子原则五:使用map-side预聚合的shuffle操作什么是map-side预聚合:原则六:使用高性能的算子使用reduceByKey/aggregateByKey替代groupByKey使用mapPartitions替代普通map使用foreachPartitions替代foreach使用filter之后进行

2022-05-19 15:06:51 189

原创 Spark性能优化之-shuffle调优

spark几种shuffle过程的详细介绍,以及部分spark shuffle调优参数。

2022-01-26 11:08:35 369

原创 空间数据计算引擎GeoSpark调研

什么是空间数据空间数据(Spatial Data)空间数据又称几何数据,它用来表示物体的位置、形态、大小分布等各方面的信息,是对现实世界中存在的具有定位意义的事物和现象的定量描述。根据在计算机系统中对地图是对现实教想的存储组织、处理方法的不同,以及空间数据本身的几何特征,空间数据又可分为图形数据和图像数据。来源与类型空间数据来源和类型繁多,概括起来主要可以分为地图数据、影像数据、地形数据、属性数据和元数据。地图数据:这类数据主要来源于各种类型的普通地图和专题地图,这些地图的内容非常丰富。影

2021-06-07 20:25:12 1927

原创 Apache Hudi调研小记

什么是Hudi?官网链接地址Apache Hudi(简称:Hudi)使得您能在hadoop兼容的存储之上存储大量数据,同时它还提供两种原语,使得除了经典的批处理之外,还可以在数据湖上进行流处理。这两种原语分别是:Update/Delete Records (how do I change records in a table?) # 更新/删除记录:Hudi使用细粒度的文件/记录级别索引来支持Update/Delete记录,同时还提供写操作的事务保证。查询会处理最后一个提交的快照,并基于此输出结果

2021-04-25 19:55:49 407 2

原创 记一次ARM-鲲鹏服务器读写parquet报错解决过程

背景:最近客户现场使用华为提供的ARM-鲲鹏服务器集群,使用spark2.4.0,输出数据格式为parquet时,下游流程再使用该输出作为输入时出现报错,报错日志如下:Caused by: java.io.IOException: could not decode the dictionary for [IMSI] optional int64 IMSI at org.apache.spark.sql.execution.datasources.parquet.VectorizedColumnRea

2020-07-29 11:35:07 1542

原创 RocketMq部署与使用

官网文档参考地址:http://rocketmq.apache.org/docs/motivation/安装包下载地址:https://mirror.bit.edu.cn/apache/rocketmq/4.7.0/rocketmq-all-4.7.0-bin-release.zip https://mirrors.tuna.tsinghua.edu.cn/apache/rocketmq/4.7.0/rocketmq-all-4.7.0-bin...

2020-05-20 13:44:15 1015

原创 hive3.0使用问题小记

1,使用spark读取hive或者使用hive 命令行查询表,发现列名被默认变成了TableName_FileName解决办法:如果通过hive-clinet命令行查询,只想对当前回话生效,执行如下命令即可:> set hive.resultset.use.unique.column.names=false;通过 set hive.cli.print.header = tr...

2020-05-06 20:08:05 1081

原创 Apache Ozone0.4.0调研

为什么有Ozone对象存储比标准文件系统更容易构建和使用。 缩放对象库也更容易。 大多数大数据应用程序和框架(如Apache Spark,YARN和Hive)都可以在云端和本地运行,这使得在本地存储对象存储非常具有吸引力。众所周知,HDFS是大数据存储系统,并在业界得到了广泛的使用。但是无论大集群还是小集群其扩展性都受NN的限制,虽然HDFS可以通过Federation进行扩展,但是依然深受小...

2019-08-13 09:55:00 2773

翻译 Spring Cloud Eureka 配置文件说明

Eureka Client 配置项(eureka.client.*)org.springframework.cloud.netflix.eureka.EurekaClientConfigBean参数名称 说明 默认值 eureka.client.enabled 用于指示Eureka客户端已启用的标志 true ...

2019-06-11 11:19:01 209

原创 spring boot 1.x和 2.x通过代码修改默认address和端口

Spring boot 1.x可以通过实现EmbeddedServletContainerCustomizer 接口去实现:@Beanpublic EmbeddedServletContainerCustomizer servletContainerCustomizer() { return new EmbeddedServletContainerCustomizer() { ...

2019-05-21 15:43:34 889

原创 guava LoadingCache 的用法

这段代码主要功能是实现使用guava的LoadingCache记录一个ip在一段时间类反复登录失败的次数,如果超过10次则在规定时间(expiration=1800)内禁止登录(Blocked);使用方式比较简单,没事学习用的。引入的pom文件:<dependency> <groupId>com.google.guava</groupId> ...

2019-05-07 11:00:19 1702

原创 使用Java生成图形验证码(后端)

生成图形验证码工具类: VerificationCodeUtilpackage com.merce.woven.utils;import java.awt.*;import java.awt.image.BufferedImage;import java.util.Random;/** * @author chuan * @date 2019-05-05 * @desc 图...

2019-05-07 10:14:29 1003

转载 程序员业余干活收藏

第一个,软件商务网(http://www.bizsofts.com)软件商务网成立于2004年,至今已经开办10年了。这个网站的服务范围比较窄,就是软件开发和网站开发,所以里面聚集的都是专业的软件开发团队或软件公司。这里的外包响应比较快,往往一个需求发布后,2个小时内就有十几人至几十人甚至上百人联系你,是挑选软件开发者的理想的地方。这里发布需求也最为简便,甚至你都不用注册,直接就可以发布需求。方...

2018-09-09 22:38:24 139

原创 Linux操作多台主机脚本/工具

1,用脚本从信任主机下发命令到多台主机(不复制文件只执行命令的情况下):首先需要指定一台主机作为信任主机,这样从这台主机登录其他机器就不需要密码了。如何设置信任主机(以node1为例)?ssh-keygencat ~/.ssh/id_rsa.pub &gt;&gt; ~/.ssh/authorized_keyschmod 700 ~/.sshchmod 600 ~/.ssh...

2018-08-16 11:11:49 1713

原创 脚本化配置集群无秘钥登录

1,安装expect环境:expect依赖于tcl,而linux系统里一般不自带安装tcl,所以需要手动安装 下载:expect-5.43.0.tar和tcl8.4.11-src.tar下载地址:https://pan.baidu.com/s/1i5tOrXz提取密码:akey将expect和tcl的软件包下载放到/usr/local/src目录下(1)解压tcl,进入...

2018-08-16 11:08:04 287

原创 大数据平台安装部署文档 Ambari2.4-HDP2.5

大数据平台安装部署文档Ambari2.4-HDP2.5          目录1 集群配置说明...32 集群配置...32.1 集群组成...42.2 基础软件要求...52.3 修改主机名并设置DNS解析...52.4 配置ssh无密码登录...52.5  配置ntp服务...72.6 

2017-06-28 22:38:55 976

原创 微信的隐藏功能代码

微信隐藏命令

2017-06-23 14:56:45 5951 2

原创 Linux配置定时任务

用户所建立的crontab文件中,每一行都代表一项任务,每行的每个字段代表一项设置,它的格式共分为六个字段,前五段是时间设定段,第六段是要执行的命令段,格式如下:minute   hour   day   month   week   command minute: 表示分钟,可以是从0到59之间的任何整数。hour:表示小时,可以是从0到23之间的任何整数。day:表示日期,

2017-06-23 11:07:52 237

原创 机器学习 K-Nearst-Neighbors算法

机器学习 K近邻(K-Nearest-Neighbors)算法剖析一、 读懂该算法所具备的相关知识熟练掌握Python语言线性代数矩阵常见的基本运算欧几里得定律,计算矩阵中两点之间的距离。二、 生活案例-K近邻算法电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在

2017-06-23 11:02:23 557

原创 windows下zookeeper,kafka和solr启动

进到kafka的Home目录启动zookeeper:.\bin\windows\zookeeper-server-start.bat config\zookeeper.properties停止zookeeper:.\bin\windows\zookeeper-server-stop.bat启动kafka:.\bin\windows\kafka-ser

2017-06-23 10:59:04 384

原创 java反射,获取类的方法,成员变量,构造函数信息

package com.office;import java.lang.reflect.Constructor;import java.lang.reflect.Field;import java.lang.reflect.Method;public class ClassUtil { /** * 获取打印成员函数信息 * @param obj */

2016-10-09 14:44:27 384

转载 java面试问答

1:JDK与JRE JDK:JAVA Development Kit, java开发工具包; 包括各种类库和工具,当然也包括JRE JRE:JAVA Runtime Environment,java程序运行环境,包括JAVA类库的class文件和JVM2:JAVA_HOME PATH CLASSPATH JAVA_HOME :JDK的安装目录,很多web服务器如tomcat没有内置JDK

2016-09-27 17:59:16 209

rocketmq-console-ng-1.0.1.jar

目前Apache官方提供的rocketmq-console源码里不支持brocker端开启accessKey/secreKey 安全认证,这里提供的jar是我自己开发加入了该功能支持。 运行命令:ava -jar rocketmq-console-ng-1.0.1.jar --server.port=12581 --rocketmq.config.namesrvAddr=localhost:9876 --rocketmq.config.accessKey=rocketmq --rocketmq.config.secretKey=87654321

2020-05-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除