dcn5371-CSDN博客

转载 Spark中的Shuffle过程

一、Spark中的Shuffle过程Shuffle分为两种：Shuffle write、Shuffle readSpark中Shuffle分为两种：HahShuffle、SortShuffle；1、HashShuffle磁盘小文件的个数为：M*R = 4*3 =12个每一个buffer的大小为32k，由于产生的磁盘小文件过多，会产生一系列的问题如：因为在写文件的时...

2019-05-02 15:27:00 611

转载 Spark中的BlockManager及Spark HA

对于Executor中执行的BlockManager总结如下：1、一个Executor中一个BlockManager2、一个worker中可以有多个Executor3、对于driver端拥有的是BlockManagerMaster。在task执行过程中，读取广播变量的时候，第一次读取广播变量的时候，BlockManager中是没有广播变量的值的，是需要BlockManag...

2019-05-02 14:45:00 132

转载 Spark累加器

spark累计器因为task的执行是在多个Executor中执行，所以会出现计算总量的时候，每个Executor只会计算部分数据，不能全局计算。累计器是可以实现在全局中进行累加计数。注意：累加器只能在driver端定义，driver端读取，不能在Executor端读取。广播变量只能在driver端定义，在Executor端读取，Executor不能修改。下面是实践...

2019-04-30 15:21:00 200

转载 spark中资源调度任务调度

在spark的资源调度中1、集群启动worker向master汇报资源情况2、Client向集群提交app，向master注册一个driver（需要多少core、memery）,启动一个driver3、Driver将当前app注册给master，（当前app需要多少资源），并请求启动对应的Executor4、driver分发任务给Executor的Thread Pool。...

2019-04-30 11:39:00 191

转载 spark 广播变量

Spark广播变量使用广播变量来优化，广播变量的原理是：在每一个Executor中保存一份全局变量，task在执行的时候需要使用和这一份变量就可以，极大的减少了Executor的内存开销。Executor中task在执行的时候如果使用到了广播变量，会找Executor里面的BlockManager来获取广播变量。如果BlockManager中没有这个关闭变量，会从dr...

2019-04-30 11:11:00 182

转载 spark持久化

spark持久化：cache 、persist、checkpoint一、cache持久化cache实际上是persist的一种简化方式，是一种懒执行的，执行action类算子才会触发，cahce后返回值要赋值给一个变量，下一个job直接基于变量进行操作。cache操作：public class Persist_Cache { public static vo...

2019-04-29 15:01:00 120

转载 Spark wordcount

wordcount实现过程：1、首先读取文件sc.textfile("path")，可以是本地文件，也可以是hdfs上的文件2、首先进行扁平化操作，利用flatmap，将数据挤压出来hello,dwj1 hellohello,dwj2 =====> dwj1hello,dwj3 hello ...

2019-04-29 11:37:00 108

转载大数据应用

一、日志分析系统1、特点（1）数据源多样化（2）流式数据（广告点击数据）（3）高并发（4）数据量大（5）近实时分析与离线处理2、要求（1）支持对种源数据（网页、mysql、Hive、Hbase等）（2）保证数据不丢失（少量丢失）（3）数据集中存储（4）近实时分析和离线分析3、大概的原理过程用户服务器提取用户日志——>将用户日志进行...

2019-03-06 11:23:00 82

转载 kafka安装

1、首先从apache kafka网站下载自己需要的kafka版本此处我们下载的是2.11版本http://kafka.apache.org/downloads并放到了/opt/workspace/目录下。2、在服务器上将kafka压缩包解压缩[root@master1 workspace]# tar -zxvf kafka_2.11-2.1.1.tgz3...

2019-03-05 17:16:00 69

转载 sparksql连接mysql

1、方法1：分别将两张表中的数据加载为DataFrame /* * 方法1：分别将两张表中的数据加载为DataFrame * */ /*　　　　　Map<String,String> options = new HashMap<String,String>(); options.put...

2019-03-04 14:46:00 142

转载大数据-HBase HA集群搭建

1、下载对应版本的Hbase，在我们搭建的集群环境中选用的是hbase-1.4.6将下载完成的hbase压缩包放到对应的目录下，此处我们的目录为/opt/workspace/2、对已经有的压缩包进行解压缩[root@master1 workspace]#tar -zxvf hbase-1.4.6-bin.tar.gz3、为了方便可以将文件重命名，此处我们不需要重命...

2019-03-01 13:21:00 139

转载 mysql误删root用户

在操作mysql时误删除root用户，如何进行恢复在安装hive时候误删除root用户，存在的用户没有权限，解决方法如下。1、首先在/etc/my.cnf文件中 mysqlID下面添加skip-grant-tables用来跳过安全密码验证2、在服务上重启mysql服务[root@master2 bin]# systemctl restart mysql...

2019-03-01 11:45:00 394

转载大数据-hive安装

1、下载Hive需要的版本我们选用的是hive-3.1.0将下载下来的hive压缩文件放到/opt/workspace/下2、解压hive-3.1.0.tar.gz文件[root@master1 workspace]# tar -zxvf apache-hive-3.1.0-bin.tar.gz3、重命名[root@master1 workspace]...

2019-02-21 10:58:00 164

转载大数据-spark HA集群搭建

一、安装scala我们安装的是scala-2.11.8 5台机器全部安装下载需要的安装包，放到特定的目录下/opt/workspace/并进行解压1、解压缩[root@master1 ~]# cd /opt/workspace[root@master1 workspace]#tar -zxvf scala-2.11.8.tar.gz 2、配置环境变量 ...

2019-02-20 16:48:00 236

转载大数据-hadoop HA集群搭建

一、安装hadoop、HA及配置journalnode实现namenode HA实现resourcemanager HAnamenode节点之间通过journalnode同步元数据首先下载需要版本的hadoop，我用的版本是hadoop-2.9.1安装到5台机器上master1 master2上安装namenodemaster1 master2上配置re...

2019-02-20 14:34:00 241

转载大数据-zookeeper集群安装

一、安装前发现的问题：1、安装前期发现jps权限不够[root@master1 ~]# jps-bash: /opt/workspace/jdk1.8/bin/jps: Permission denied解决：这时只需要添加一个权限即可chmod +x /usr/local/jdk8/bin/jpsx是执行权限2、中文乱码问题...

2019-02-19 21:54:00 210

转载大数据平台-java、mysql安装

补充：对于ssh登录不是特定端口22的，进行文件修改vim /etc/ssh/sshd_configPort 61333简化后序命令输入，修改文件如下：一、java环境安装一共5台服务器：master1 、master2、slave1、slave2、slave3分别安装java环境1、在/opt文件下新建文件夹workspacemkd...

2019-02-18 20:33:00 105

转载大数据平台-修改主机名及ssh免密码登录

2019-02-18 18:40:00 283

dcn5371的博客