学习
文章平均质量分 92
细雪-之舞
让人迷茫的原因只有一个,那就是在本应拼搏的年纪想得太多做得太少。
展开
-
Spark性能优化之-数据倾斜
文章目录概述现象和判定方式数据倾斜发生时的现象数据倾斜发生的原理如何定位导致数据倾斜的代码某个task执行特别慢的情况某个task莫名其妙内存溢出的情况查看导致数据倾斜的key的数据分布情况数据倾斜的解决方案解决方案一:使用Hive ETL预处理数据解决方案二:过滤少数导致倾斜的key解决方案三:提高shuffle操作的并行度解决方案四:两阶段聚合(局部聚合+全局聚合)解决方案五:将reduce join转为map join解决方案六:采样倾斜key并分拆join操作解决方案七:使用随机前缀和扩容RDD进行原创 2022-05-19 15:17:54 · 600 阅读 · 0 评论 -
Spark性能优化之-资源调优
文章目录概述Spark作业基本运行原理资源参数调优num-executorsexecutor-memoryexecutor-coresdriver-memoryspark.default.parallelismspark.storage.memoryFractionspark.shuffle.memoryFraction资源参数参考示例概述在开发完Spark作业之后,就该为作业配置合适的资源了。Spark的资源参数,基本都可以在spark-submit命令中作为参数设置。很多Spark初学者,通常不知道原创 2022-05-19 15:14:48 · 342 阅读 · 0 评论 -
Spark性能优化之-开发调优
文章目录概述:原则一:避免创建重复的RDD原则二:尽可能复用同一个RDD原则三:对多次使用的RDD进行持久化Spark的持久化级别如何选择一种最合适的持久化策略原则四:尽量避免使用shuffle类算子原则五:使用map-side预聚合的shuffle操作什么是map-side预聚合:原则六:使用高性能的算子使用reduceByKey/aggregateByKey替代groupByKey使用mapPartitions替代普通map使用foreachPartitions替代foreach使用filter之后进行原创 2022-05-19 15:06:51 · 340 阅读 · 0 评论 -
Apache Ozone0.4.0调研
为什么有Ozone对象存储比标准文件系统更容易构建和使用。 缩放对象库也更容易。 大多数大数据应用程序和框架(如Apache Spark,YARN和Hive)都可以在云端和本地运行,这使得在本地存储对象存储非常具有吸引力。众所周知,HDFS是大数据存储系统,并在业界得到了广泛的使用。但是无论大集群还是小集群其扩展性都受NN的限制,虽然HDFS可以通过Federation进行扩展,但是依然深受小...原创 2019-08-13 09:55:00 · 2788 阅读 · 0 评论 -
Spring Cloud Eureka 配置文件说明
Eureka Client 配置项(eureka.client.*)org.springframework.cloud.netflix.eureka.EurekaClientConfigBean参数名称 说明 默认值 eureka.client.enabled 用于指示Eureka客户端已启用的标志 true ...翻译 2019-06-11 11:19:01 · 212 阅读 · 0 评论 -
spring boot 1.x和 2.x通过代码修改默认address和端口
Spring boot 1.x可以通过实现EmbeddedServletContainerCustomizer 接口去实现:@Beanpublic EmbeddedServletContainerCustomizer servletContainerCustomizer() { return new EmbeddedServletContainerCustomizer() { ...原创 2019-05-21 15:43:34 · 894 阅读 · 0 评论 -
guava LoadingCache 的用法
这段代码主要功能是实现使用guava的LoadingCache记录一个ip在一段时间类反复登录失败的次数,如果超过10次则在规定时间(expiration=1800)内禁止登录(Blocked);使用方式比较简单,没事学习用的。引入的pom文件:<dependency> <groupId>com.google.guava</groupId> ...原创 2019-05-07 11:00:19 · 1737 阅读 · 0 评论 -
使用Java生成图形验证码(后端)
生成图形验证码工具类: VerificationCodeUtilpackage com.merce.woven.utils;import java.awt.*;import java.awt.image.BufferedImage;import java.util.Random;/** * @author chuan * @date 2019-05-05 * @desc 图...原创 2019-05-07 10:14:29 · 1012 阅读 · 0 评论 -
Linux操作多台主机脚本/工具
1,用脚本从信任主机下发命令到多台主机(不复制文件只执行命令的情况下):首先需要指定一台主机作为信任主机,这样从这台主机登录其他机器就不需要密码了。如何设置信任主机(以node1为例)?ssh-keygencat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keyschmod 700 ~/.sshchmod 600 ~/.ssh...原创 2018-08-16 11:11:49 · 1725 阅读 · 0 评论 -
脚本化配置集群无秘钥登录
1,安装expect环境:expect依赖于tcl,而linux系统里一般不自带安装tcl,所以需要手动安装 下载:expect-5.43.0.tar和tcl8.4.11-src.tar下载地址:https://pan.baidu.com/s/1i5tOrXz提取密码:akey将expect和tcl的软件包下载放到/usr/local/src目录下(1)解压tcl,进入...原创 2018-08-16 11:08:04 · 310 阅读 · 0 评论 -
机器学习 K-Nearst-Neighbors算法
机器学习 K近邻(K-Nearest-Neighbors)算法剖析一、 读懂该算法所具备的相关知识熟练掌握Python语言线性代数矩阵常见的基本运算欧几里得定律,计算矩阵中两点之间的距离。二、 生活案例-K近邻算法电影可以按照题材分类,然而题材本身是如何定义的?由谁来判定某部电影属于哪个题材?也就是说同一题材的电影具有哪些公共特征?这些都是在原创 2017-06-23 11:02:23 · 569 阅读 · 0 评论 -
java面试问答
1:JDK与JRE JDK:JAVA Development Kit, java开发工具包; 包括各种类库和工具,当然也包括JRE JRE:JAVA Runtime Environment,java程序运行环境,包括JAVA类库的class文件和JVM2:JAVA_HOME PATH CLASSPATH JAVA_HOME :JDK的安装目录,很多web服务器如tomcat没有内置JDK转载 2016-09-27 17:59:16 · 215 阅读 · 0 评论 -
java反射,获取类的方法,成员变量,构造函数信息
package com.office;import java.lang.reflect.Constructor;import java.lang.reflect.Field;import java.lang.reflect.Method;public class ClassUtil { /** * 获取打印成员函数信息 * @param obj */原创 2016-10-09 14:44:27 · 396 阅读 · 0 评论