![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
bigdata
Mr_Tanga
这个作者很懒,什么都没留下…
展开
-
win10下kettle安装
首先我们先下载一个kettle的安装包链接如下https://pan.baidu.com/s/1J5MlxdThL2RSTFj43rpcoQ下载完成后解压因为这个kettke是需要jdk的辅助的,所以要在电脑上安装一个jdk,可以搜索我的文章https://blog.csdn.net/mr_tanga/article/details/80996238,这篇文章介绍的是jdk的安装之后安装完成之后我...原创 2018-07-11 16:35:46 · 4018 阅读 · 0 评论 -
数据倾斜解决方案之使用随机key实现双重聚合
使用随机key实现双重聚合1、原理2、使用场景(1)groupByKey(2)reduceByKey比较适合使用这种方式;join,咱们通常不会这样来做,后面会讲三种,针对不同的join造成的数据倾斜的问题的解决方案。第一轮聚合的时候,对key进行打散,将原先一样的key,变成不一样的key,相当于是将每个key分为多组;先针对多个组,进行key的局部聚合;接着,再去除掉每...转载 2018-08-07 09:32:32 · 652 阅读 · 0 评论 -
数据倾斜解决方案之提高shuffle操作reduce并行度
spark.default.parallelism,100提升shuffle reduce端并行度,怎么来操作?很简单,主要给我们所有的shuffle算子,比如groupByKey、countByKey、reduceByKey。在调用的时候,传入进去一个参数。一个数字。那个数字,就代表了那个shuffle操作的reduce端的并行度。那么在进行shuffle操作的时候,就会对应着创建指定数量...转载 2018-08-07 09:31:29 · 730 阅读 · 0 评论 -
数据倾斜解决方案之聚合源数据
数据倾斜的解决,跟之前讲解的性能调优,有一点异曲同工之妙。性能调优,跟大家讲过一个道理,“重剑无锋”。性能调优,调了半天,最有效,最直接,最简单的方式,就是加资源,加并行度,注意RDD架构(复用同一个RDD,加上cache缓存);shuffle、jvm等,次要的。数据倾斜,解决方案,第一个方案和第二个方案,一起来讲。最朴素、最简谱、最直接、最有效、最简单的,解决数据倾斜问题的方案。第一...转载 2018-08-07 09:30:26 · 462 阅读 · 0 评论 -
数据倾斜解决方案之原理以及现象分析
数据倾斜在任何大数据类的项目中,都是最棘手的性能问题,最能体现人的技术能力,最能体现RD(Research Developer,研发工程师)的技术水平。数据倾斜 = 性能杀手如果没有丰富的经验,或者没有受过专业的技术培训,是很难解决数据倾斜问题的在执行shuffle操作的时候,大家都知道,我们之前讲解过shuffle的原理。是按照key,来进行values的数据的输出、拉取和聚合的。...转载 2018-08-07 09:29:21 · 2239 阅读 · 0 评论 -
数据仓库项目如何选择etl工具,etl还是elt????
根据以往数据仓库项目的经验,在一个数据仓库项目中,ETL设计和实施的工作量一般要占总项目工作量的40%-60%,而且数据仓库项目一般会存在二次需求的问题,客户在项目的实施过程中或者使用过程中会提出新的业务需求,而任何前端业务模型的改变都会涉及到ETL设计,因此ETL工具的选择对于整个数据仓库项目的成功是非常重要的。Oracle在收购Sunopsis后宣称自己的ETL工具是基于EL-T架构的,很多同...转载 2018-07-13 16:23:08 · 2202 阅读 · 0 评论 -
maven本地配置安装
首先打开我们需要下载的地方的网址百度搜索 apache maven点进去之后选择第二个、下载路径自己定,然后我们再解压到我们需要的文件夹中去复制能看到这些文件的路径再进入到系统环境变量配置再编辑我们的环境变量确认之后,再找一个path环境变量%M2_HOME%\bin;编辑完成之后,再一次一次的点确定再打开cmd,搜索 m...原创 2018-07-19 11:38:14 · 195 阅读 · 0 评论 -
kettle的资源库创建
在学kettle的同时,我在某某学习视频上到了新建资源库的这一步骤,很是蒙啊,因为他的spoon是4.x的版本,而我安装的是7.0所以这个新建资源库就没找到。后来参考资料找到了,如下图所示点进去之后这二者点那个小字体。然后亮两个选择,我们点击上面的这个,因为上面这个就是常规的数据库链接,下面的那个需要进行参数配置然后我们点进去之后第一个我们输入的是自定义的库名称,第二个是我们链接数据库的通道前者不...原创 2018-07-13 11:00:42 · 1012 阅读 · 0 评论 -
数据倾斜解决方案之将reduce join转换为map join
普通的join,那么肯定是要走shuffle;那么,所以既然是走shuffle,那么普通的join,就肯定是走的是reduce join。先将所有相同的key,对应的values,汇聚到一个task中,然后再进行join。将reduce join转换为map join。reduce join转换为map join,适合在什么样的情况下,可以来使用?如果两个RDD要进行join,其中一...转载 2018-08-07 09:33:51 · 974 阅读 · 0 评论