moshang_find-CSDN博客

原创 spark性能调优（四）之shuffle

前言： spark/mr作业在执行过程中，数据重排的过程，主要发生在mr的话，就在map输出和reduce输入的过程，如果在spark就发生在窄依赖阶段和宽依赖阶段。shuffle操作是分布式计算不可避免的一个过程，同时也是分布式计算最消耗性能的一个部分。一、spark shuffle发展和执行过程在spark中由于不同的ShuffleManager的的配置，会造成shuffle执行的流程不...

2019-07-02 09:19:07 387

原创 spark性能调优（三）之数据倾斜

一、什么是数据倾斜所谓数据倾斜(data skew)是由于数据分布不均匀造成计算时间差异很大，产生了一些列异常现象。二、常见现象1、个别task作业运行缓慢大多数的task运行都很快速，但是极个别的task运行非常缓慢，甚至是正常task运行时间好多倍。而一个作业运行的最终时间是由时间最短的那些task决定还是有哪些时间最长的task决定。2、莫名其妙的OOM异常这是一种相对比较少见...

2019-07-01 11:43:29 424

原创 spark性能调优（二）之资源调优

前言：理解资源调优，说白了就是为spark程序提供合理的内存资源、cpu资源等。所以需要知道有哪些参数可以设置这些资源。–conf PROP=VALUE手动给sparkConf指定相关配置，比如–conf spark.serializer=org.apache.spark.serializer.KryoSeri...

2019-07-01 11:42:10 530

原创 spark性能调优（一）之开发调优

一、为什么需要调优一般情况在实际的生产环境中编写代码会有各种各样的事情发生，比如说赶项目，所以留给程序猿的时间并不是很多，有时候还要面临需求方催进度或给领导进行汇报等等原因，造成在开发初期的时候一味的只是追求代码的功能实现，所以在易用性和性能上会比较差一些，所以在后期会对原有的代码进行性能调优和代码进行维护升级、优化、重构等等（ps：要不然性能低下的话真的是把人给“搞死”了）。二、开发调优开...

2019-06-24 09:55:15 456

原创 flink消费kafka数据写入阿里hologres(java版)

利用flink将kafka写入到hologres中

2022-08-24 17:57:57 1571 1

原创 anaconda使用国内数据源

anaconda后默认走的是官方镜像，但是相对来说，不使用翻墙软件的话还是使用国内源下载会比较便捷。

2022-08-23 14:28:48 1140

原创 CommandNotFoundError: Your shell has not been properly configured to use ‘conda activate‘. To initia

anaconda切换环境报错

2022-08-23 11:14:37 886

原创 write javaBean error, fastjson version 1.2.68, class org.springframework.web.multipart.support.Stand

一、问题背景这两天在springboot项目中遇到个让人摸不着头脑的问题，一个接口准备上传excel文件并解析到数据库中，结果运行的时候报错了，具体信息如下： ERROR 62 [,] [http-nio-8090-exec-2] adminLogger 系统异常com.alibaba.fastjson.JSONException: write javaBean error, fastjson version 1.2.68, class org.springframework.web.multipar

2021-06-02 17:19:40 13395 7

原创 mac下安装ngix(亲测可用-转载)

mac下安装ngixhttps://www.cnblogs.com/y896926473/articles/11182425.html

2021-04-27 11:34:30 111

原创 SparkStreaming scala Demo示例

1. 流式计算是什么1.1.离线批处理（batch calculation）所谓离线批处理，这里面有两个概念，一个是离线，还是一个是批处理。先看批处理，说白了处理的是一批数据，只不过这里的一批，数据量往往相对比较大，比如100G，500G，1T等等；离线指的是，数据是静态，或者说数据不变。所以二者合一，所谓离线批处理，就是对静态的，不变的数据集进行处理。有哪些特点呢？处理的数据是静态的...

2019-12-27 11:12:47 620

原创 kafka消息检索原理

1、消息结构体构成2、消息检索的原理（面试）读取数据的过程中，数据是属于某一个topic的某一个partition对应的某一个segment文件中的某一条记录。如何高效找到这条消息，决定着kafka的性能。 Kafka中数据文件的保存目录，我们可以看到的是这个partition下面有好多组文件，每一组都由一个segment数据文件，一个index索引文件，以及一个timeindex时间戳...

2019-12-07 16:12:07 1060

原创 kafka三种分区策略及代码示例

分区partition1、HashPartitioner1.1代码import org.apache.kafka.clients.producer.Partitioner;import org.apache.kafka.common.Cluster; import java.util.Map; /***要想在生产数据的时候指定partitioner**自定义的Partitio...

2019-12-07 15:51:54 519

原创 Java读取ZIP文件ZipEntry.getsize()总是返回-1

一、分析下原因（PS:参考大佬的博客地址：https://blog.csdn.net/zbj18314469395/article/details/84109499）二、解决办法：把判断条件由【(ze=zin.getNextEntry())!=null】换成【zipEnum.hasMoreElements ()】使用了枚举， Enumeration 接口（枚举）。通常用 Enumerati...

2019-09-24 11:37:47 1686

原创 class path resource [templates/] cannot be resolved to absolute file path because it does not reside

报错：在运行springcloud代码的时候报错，但是不影响正常启动分析：经过谷歌和百度发现FreeMarkerConfigurationFactory中存在以下方法：protected TemplateLoader getTemplateLoaderForPath(String templateLoaderPath) { if(this.isPreferFileSyste...

2019-09-03 16:47:33 10251 3

原创大数据面试之java关键字(持续更新...)

一、native一个方法被native修饰，那么说明该方法就不属于java体系，是由c/c++编写的，在java中被调用而已。java中专门一个规范来处理和底层操作系统的交互–JNI(java native interface)。二、transient英文单词意思是瞬时的、短暂的。一旦某个变量被transient所修饰，就意味着该变量不会被序列化。那么有什么用呢，实现了有选择的序列化！比如在...

2019-08-29 14:42:50 138

原创常见jvm调优参数总结

Java1.7的jvm参数官方网站地址：http://docs.oracle.com/javase/7/docs/technotes/tools/windows/java.htmlJava1.8的jvm参数官方网站地址：http://docs.oracle.com/javase/8/docs/technotes/tools/windows/java.htmlHotspotvm知识官方网站地...

2019-08-29 14:23:41 1136

原创一篇文章搞定JVM原理

一、什么是JVMJVM全称是Java Virtual Machine，即java虚拟机。java语言是跨平台的，一次编译，到处执行。每一种操作系统，执行相关程序的时候，因为操作系统环境的不同，会造成代码不能跨平台执行。而java可以做到，原因在哪里？就在于不同操作系统有不同版本的JVM。java语言的执行过程：源代码(.java)----->编译(字节码 .class)---...

2019-08-29 14:23:15 216

原创 idea配置git报错（mac）

问题引出：前段时间使用idea配置git的时候碰到一个问题，报错如下：xcrun: error: active developer path ("/Applications/Xcode.app/Contents/Developer") does not exist, use `xcode-select --switch path/to/Xcode.app` to specify the ...

2019-08-28 20:15:30 784

原创 Hbase设计&数据热点问题

一、数据热点hbase的表的多个region中有一个region的读写并发很高，其他的region相对来说读写少，造成热点的region一定要避免数据热点的问题二、防止数据热点的有效措施:1）加盐这里所说的加盐不是密码学中的加盐，而是在 rowkey 的前面增加随机数，具体就是给rowkey 分配一个随机前缀以使得它和之前的rowkey 的开头不同。分配的前缀种类数量应该和你想使用数据...

2019-07-20 11:32:53 1070

原创 elasticSearch核心概念

一、Cluster代表一个集群，集群中有多个节点，其中有一个为主节点，这个主节点是可以通过选举产生的，主从节点是对于集群内部来说的。ES的一个概念就是去中心化，字面上理解就是无中心节点，这是对于集群外部来说的，因为从外部来看ES集群，在逻辑上是个整体，你与任何一个节点的通信和与整个ES集群通信是等价的。主节点的职责是负责管理集群状态，包括管理分片的状态和副本的状态，以及节点的发现和删除。只需...

2019-07-20 11:03:45 100

原创 curl在elasticSearch的应用

一、curl简介（摘自百度百科）cURL是一个利用URL语法在命令行下工作的文件传输工具，1997年首次发行。它支持文件上传和下载，所以是综合传输工具，但按传统，习惯称cURL为下载工具。cURL还包含了用于程序开发的libcurl。cURL支持的通信协议有FTP、FTPS、HTTP、HTTPS、TFTP、SFTP、Gopher、SCP、Telnet、DICT、FILE、LDAP、LDAP...

2019-07-20 09:39:56 247

原创 ElasticSearch分布式安装及遇到问题的解决办法

1、安装步骤1.1ElasticSearch2.x版本以后，es必须只能安装在非root用户下面；1.2上传elasticSearch压缩包后并解压；1.3修改$ELASTICSEARCH_HOME/conf/elasticsearch.yml文件cluster.name: elasticSearch-testnode.name: hadoop01path.data: /home/ha...

2019-07-18 18:26:17 457

原创 Linux如何更新内核

前言: Linux查看内核版本的命令先查看一下linux现有的内核版本uname -r1、更新nsssudo yum -y update nss2、安装public-keysudo rpm --import https://www.elrepo.org/RPM-GPG-KEY-elrepo.org3、安装elreposudo rpm -Uvh https://www.elr...

2019-07-17 19:41:08 1829

原创 hive学习（二）之Hive的hql操作

一、hive操作//Hive 显示列名/表头set hive.cli.print.header=true;//hive设置本地资源执行set hive.exec.mode.local.auto=true;1、hive的DDL——data define language数据定义语言1.1库的定义语言1）创建数据库create database if not exists 数据库名...

2019-07-17 09:05:36 709

原创 hive学习（一）之Hive简介和数据组织形式

一、hive是什么基于hadoop，数据存储在hdfs上并且对客户端提供hql支持，将hql语句转换为mapreduce任务的数仓工具二、hive的特点1、Hive是由Facebook实现并开源的2、Hive是基于Hadoop的一个数据仓库工具2.1基于hadoop主要是以下两个方面hive中的表中的数据存储在hdfs上，存储完全依赖于hdfs；hive最终计算使用的默认mapre...

2019-07-16 08:30:22 796

原创 hive安装及安装过程中的问题

前言： hive是基于hadoop的，数据存储在hdfs上并且对客户端提供hql支持，将hql语句转换为mapreduce任务的数仓工具，hive就相当于hadoop的一个另一种形式的客户端 hql，hive的底层是用java实现的！一、安装准备：安装hive之前保证hadoop、zookeeper、jdk二、安装版本：主流是1.2和2.3 版本镜像地址： https://mirrors...

2019-07-15 22:24:15 687

原创 sparkStreaming算子之transform

前言：transform不是transformation，后者是对所有的转换算子的统称，transform也是transformation算子中的一个。transform算子的主要作用就是为了弥补Streaming没有提供的相关功能的操作，比如：一个DStream和RDD进行关联操作join，或者减少分区数量。一、使用transform来完成分区减少coalsce的操作dstream.tra...

2019-07-11 18:37:18 537

原创 sparkStreaming算子之window

窗口算子，说白了就是每隔多长（S）时间，统计过去多长时间(W)内产生的数据。Spark Streaming提供了滑动窗口操作的支持，从而让我们可以对一个滑动窗口内的数据执行计算操作。每次掉落在窗口内的RDD的数据，会被聚合起来执行计算操作，然后生成的RDD，会作为window DStream的一个RDD。比如下图中，就是对每三秒钟的数据执行一次滑动窗口计算，这3秒内的3个RDD会被聚合起来进行...

2019-07-11 18:36:56 425

原创 sparkStreaming算子之updateStateByKey

updateStateByKey操作允许我们维护任意状态，同时不断地用新信息更新它。在有新的数据信息进入或更新时，可以让用户保持想要的任何状态。使用这个功能需要完成两步：定义状态：可以是任意数据类型定义状态更新函数：用一个函数指定如何使用先前的状态，从输入流中的新值更新状态。对于有状态操作，要不断的把当前和历史的时间切片的RDD累加计算，随着时间的流失，计算的数据规模会变得越来越大...

2019-07-11 18:36:29 700

原创 sparkStreaming程序在线升级的两种方式

众所周知，线上的Spark Streaming应用程序都是7 * 24 * 30小时不间断运行的。因此如果需要对正在运行的应用程序进行代码的升级，那么有两种方式可以实现。1、并行的方式也就是升级后的Spark应用程序与旧的Spark应用程序并行，当新的应用程序没有问题时，才可以将旧的替换掉。这种方式适合于客户单独拉取自己的数据。该方法在企业中应用还是比较多的~2、必须有缓存系统保存数据才可以...

2019-07-08 19:34:02 655

原创 SparkStreaming性能调优

前言：前方高能预警，因为都是文字，可能会比较枯燥，主要是从cpu以及内存两大方面来介绍的，希望大家能耐心一些看看，可能对大家会有所帮助哈~一、设置合理的cpu资源数很多情况下Streaming程序需要的内存不是很多，但是需要的CPU要很多。在Streaming程序中，CPU资源的使用可以分为两大类：1）用于接收数据；2）用于处理数据。我们需要设置足够的CPU资源，使得有足够的CPU资源...

2019-07-08 19:24:52 2681

原创 Spark Streaming与Kafka的集成

一、整合版本说明这是一种流式数据处理中最常见的方式之一，使用SparkStreaming去从kafka中拉取数据有两大主要的版本。主要在spark2.0开始之后进行区分。SparkStremaing-kafka-0-8版本在此版本中有两种方式来消费kafka中的数据，receiver的方式(已经被淘汰)；最早出现的拉取kafka数据的方式，在1.2开始出现。direct的方式是1...

2019-07-06 14:41:14 245

原创 SparkStreaming和HDFS的整合代码实现

前言：在日常开发过程中，难免遇到SparkStreaming和HDFS的整合的需求，这里呢以WordCount为例给大家来一个入门案例参考~

2019-07-05 19:21:42 567

原创常见JVM分析工具的使用

常见的jvm分析工具一、CLI(Command Line interface)1.1 jps（java process status）jps:Java Virtual Machine Process Status Toolhttp://docs.oracle.com/javase/1.5.0/docs/tooldocs/share/jps.htmljps [ options ] [ ho...

2019-07-05 09:04:30 801

原创 zookeeper集群选主原理

前言： ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是大数据领域的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。而在大数据中最主要的作用就是集群选主！本文中讲解均以3台节点zookeeper为例！一、zookeeper自身选举zookeeper自身选举分为两类，...

2019-07-03 22:50:19 968

原创 zookeeper分布式安装

前言： zookeeper服务于大数据平台，是集群的协调服务,分布式一致性,保证的多个节点的数据一致性一、安装准备安装版本： 3.4.10安装节点：奇数台节点只有1台的话数据安全性不高，所以不建议只装一台，那么这么说的话就是至少3台底层是java实现的，依赖 jdk ，要确保jdk正常安装节点id分配： hdp01 1 ；hdp02 2 ；hdp03 3二、安装步骤1）上传压缩...

2019-07-03 20:49:36 102

原创 kafka分布式安装

前言：Kafka的分布式集群的操作，需要借助于ZooKeeper，所以第一步，需要保证zookeeper的正常使用。官网：http://kafka.apache.org版本：kafka_2.11-1.1.1.tgz(2.11指的是scala版本，1.1.1指的是kafka的版本)下载地址：http://archive.apache.org/dist/kafka/1、解压： tar -zx...

2019-07-02 09:11:57 777

原创如何创建聚合项目（基于idea创建Spark的聚合项目）

前言：以下仅仅是个实例，希望通过实例能解决大家的问题，细节可能有点问题，大家需要根据自己的实际项目酌情参考并实现~一、创建父项目指定maven坐标指向项目存储位置修改packaging方式<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0....

2019-06-22 23:19:40 308

原创 spark简介和一些核心概念

一、spark概念官网描述：Apache Spark是一个用于大规模数据处理的统一分析引擎。二、spark特点1、高速性Apache Spark使用最先进的DAG调度程序、查询优化器和物理执行引擎，实现了批处理和流数据的高性能；运行速度是hadoop的100倍以上。2、易用性Apache Spark程序可以使用java、scala、python、R、SQL语言开发，而且spar...

2019-06-22 16:19:49 879

转载 scala中的Mainfest上下文界定和ClassTag（转）

1> Mainfest上下文界定在Scala中数组必须是有类型的，如果直接是泛型的话将会报错，这时候引入了Manifest上下文界定，需要一个Mainfest[T]对象，而mainifest[T]有一个隐式值，如果调用makePair(1,2)，编译器将定位到隐式的Manifst[Int]并实际上调用makePair(2,3)(intManifest),该方法调用的就是new Arra...

2019-06-22 12:00:49 265

accounts的接送数据及数据说明.zip

MWeb_mac.dmg

java_RPC_hadoop.zip

PDMan设计工具_v2.1.2_sql for mac

空空如也