自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

转载 Spark中的Shuffle过程

一、Spark中的Shuffle过程Shuffle分为两种:Shuffle write、Shuffle readSpark中Shuffle分为两种:HahShuffle、SortShuffle;1、HashShuffle磁盘小文件的个数为:M*R = 4*3 =12个每一个buffer的大小为32k,由于产生的磁盘小文件过多,会产生一系列的问题如:因为在写文件的时...

2019-05-02 15:27:00 611

转载 Spark中的BlockManager及Spark HA

对于Executor中执行的BlockManager总结如下:1、一个Executor中一个BlockManager2、一个worker中可以有多个Executor3、对于driver端拥有的是BlockManagerMaster。在task执行过程中,读取广播变量的时候,第一次读取广播变量的时候,BlockManager中是没有广播变量的值的,是需要BlockManag...

2019-05-02 14:45:00 132

转载 Spark累加器

spark累计器因为task的执行是在多个Executor中执行,所以会出现计算总量的时候,每个Executor只会计算部分数据,不能全局计算。累计器是可以实现在全局中进行累加计数。注意:累加器只能在driver端定义,driver端读取,不能在Executor端读取。广播变量只能在driver端定义,在Executor端读取,Executor不能修改。下面是实践...

2019-04-30 15:21:00 200

转载 spark中资源调度任务调度

在spark的资源调度中1、集群启动worker向master汇报资源情况2、Client向集群提交app,向master注册一个driver(需要多少core、memery),启动一个driver3、Driver将当前app注册给master,(当前app需要多少资源),并请求启动对应的Executor4、driver分发任务给Executor的Thread Pool。...

2019-04-30 11:39:00 191

转载 spark 广播变量

Spark广播变量使用广播变量来优化,广播变量的原理是:在每一个Executor中保存一份全局变量,task在执行的时候需要使用和这一份变量就可以,极大的减少了Executor的内存开销。Executor中task在执行的时候如果使用到了广播变量,会找Executor里面的BlockManager来获取广播变量。如果BlockManager中没有这个关闭变量,会从dr...

2019-04-30 11:11:00 182

转载 spark持久化

spark持久化:cache 、persist、checkpoint一、cache持久化cache实际上是persist的一种简化方式,是一种懒执行的,执行action类算子才会触发,cahce后返回值要赋值给一个变量,下一个job直接基于变量进行操作。cache操作:public class Persist_Cache { public static vo...

2019-04-29 15:01:00 120

转载 Spark wordcount

wordcount实现过程:1、首先读取文件sc.textfile("path"),可以是本地文件,也可以是hdfs上的文件2、首先进行扁平化操作,利用flatmap,将数据挤压出来hello,dwj1 hellohello,dwj2 =====> dwj1hello,dwj3 hello ...

2019-04-29 11:37:00 108

转载 大数据应用

一、日志分析系统1、特点(1)数据源多样化(2)流式数据(广告点击数据)(3)高并发(4)数据量大(5)近实时分析与离线处理2、要求(1)支持对种源数据(网页、mysql、Hive、Hbase等)(2)保证数据不丢失(少量丢失)(3)数据集中存储(4)近实时分析和离线分析3、大概的原理过程用户服务器提取用户日志——>将用户日志进行...

2019-03-06 11:23:00 82

转载 kafka安装

1、首先从apache kafka网站下载自己需要的kafka版本此处我们下载的是2.11版本http://kafka.apache.org/downloads并放到了/opt/workspace/目录下。2、在服务器上将kafka压缩包解压缩[root@master1 workspace]# tar -zxvf kafka_2.11-2.1.1.tgz3...

2019-03-05 17:16:00 69

转载 sparksql连接mysql

1、方法1:分别将两张表中的数据加载为DataFrame /* * 方法1:分别将两张表中的数据加载为DataFrame * */ /*     Map<String,String> options = new HashMap<String,String>(); options.put...

2019-03-04 14:46:00 142

转载 大数据-HBase HA集群搭建

1、下载对应版本的Hbase,在我们搭建的集群环境中选用的是hbase-1.4.6将下载完成的hbase压缩包放到对应的目录下,此处我们的目录为/opt/workspace/2、对已经有的压缩包进行解压缩[root@master1 workspace]#tar -zxvf hbase-1.4.6-bin.tar.gz3、为了方便可以将文件重命名,此处我们不需要重命...

2019-03-01 13:21:00 139

转载 mysql误删root用户

在操作mysql时误删除root用户,如何进行恢复在安装hive时候误删除root用户,存在的用户没有权限,解决方法如下。1、首先在/etc/my.cnf文件中 mysqlID下面添加skip-grant-tables用来跳过安全密码验证2、在服务上重启mysql服务[root@master2 bin]# systemctl restart mysql...

2019-03-01 11:45:00 394

转载 大数据-hive安装

1、下载Hive需要的版本我们选用的是hive-3.1.0将下载下来的hive压缩文件放到/opt/workspace/下2、解压hive-3.1.0.tar.gz文件[root@master1 workspace]# tar -zxvf apache-hive-3.1.0-bin.tar.gz3、重命名[root@master1 workspace]...

2019-02-21 10:58:00 164

转载 大数据-spark HA集群搭建

一、安装scala我们安装的是scala-2.11.8 5台机器全部安装下载需要的安装包,放到特定的目录下/opt/workspace/并进行解压1、解压缩[root@master1 ~]# cd /opt/workspace[root@master1 workspace]#tar -zxvf scala-2.11.8.tar.gz 2、配置环境变量 ...

2019-02-20 16:48:00 236

转载 大数据-hadoop HA集群搭建

一、安装hadoop、HA及配置journalnode实现namenode HA实现resourcemanager HAnamenode节点之间通过journalnode同步元数据首先下载需要版本的hadoop,我用的版本是hadoop-2.9.1安装到5台机器上master1 master2上安装namenodemaster1 master2上配置re...

2019-02-20 14:34:00 241

转载 大数据-zookeeper集群安装

一、安装前发现的问题:1、安装前期发现jps权限不够[root@master1 ~]# jps-bash: /opt/workspace/jdk1.8/bin/jps: Permission denied解决:这时只需要添加一个权限即可chmod +x /usr/local/jdk8/bin/jpsx是执行权限2、中文乱码问题...

2019-02-19 21:54:00 210

转载 大数据平台-java、mysql安装

补充:对于ssh登录不是特定端口22的,进行文件修改vim /etc/ssh/sshd_configPort 61333简化后序命令输入,修改文件如下:一、java环境安装一共5台服务器:master1 、master2、slave1、slave2、slave3分别安装java环境1、在/opt文件下新建文件夹workspacemkd...

2019-02-18 20:33:00 105

转载 大数据平台-修改主机名及ssh免密码登录

一、查看服务器初始配置:1、总核数 = 物理CPU个数 X 每颗物理CPU的核数2、总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /proc/cpuinfo|...

2019-02-18 18:40:00 283

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除