- 博客(18)
- 收藏
- 关注
转载 Spark中的Shuffle过程
一、Spark中的Shuffle过程Shuffle分为两种:Shuffle write、Shuffle readSpark中Shuffle分为两种:HahShuffle、SortShuffle;1、HashShuffle磁盘小文件的个数为:M*R = 4*3 =12个每一个buffer的大小为32k,由于产生的磁盘小文件过多,会产生一系列的问题如:因为在写文件的时...
2019-05-02 15:27:00 611
转载 Spark中的BlockManager及Spark HA
对于Executor中执行的BlockManager总结如下:1、一个Executor中一个BlockManager2、一个worker中可以有多个Executor3、对于driver端拥有的是BlockManagerMaster。在task执行过程中,读取广播变量的时候,第一次读取广播变量的时候,BlockManager中是没有广播变量的值的,是需要BlockManag...
2019-05-02 14:45:00 132
转载 Spark累加器
spark累计器因为task的执行是在多个Executor中执行,所以会出现计算总量的时候,每个Executor只会计算部分数据,不能全局计算。累计器是可以实现在全局中进行累加计数。注意:累加器只能在driver端定义,driver端读取,不能在Executor端读取。广播变量只能在driver端定义,在Executor端读取,Executor不能修改。下面是实践...
2019-04-30 15:21:00 200
转载 spark中资源调度任务调度
在spark的资源调度中1、集群启动worker向master汇报资源情况2、Client向集群提交app,向master注册一个driver(需要多少core、memery),启动一个driver3、Driver将当前app注册给master,(当前app需要多少资源),并请求启动对应的Executor4、driver分发任务给Executor的Thread Pool。...
2019-04-30 11:39:00 191
转载 spark 广播变量
Spark广播变量使用广播变量来优化,广播变量的原理是:在每一个Executor中保存一份全局变量,task在执行的时候需要使用和这一份变量就可以,极大的减少了Executor的内存开销。Executor中task在执行的时候如果使用到了广播变量,会找Executor里面的BlockManager来获取广播变量。如果BlockManager中没有这个关闭变量,会从dr...
2019-04-30 11:11:00 182
转载 spark持久化
spark持久化:cache 、persist、checkpoint一、cache持久化cache实际上是persist的一种简化方式,是一种懒执行的,执行action类算子才会触发,cahce后返回值要赋值给一个变量,下一个job直接基于变量进行操作。cache操作:public class Persist_Cache { public static vo...
2019-04-29 15:01:00 120
转载 Spark wordcount
wordcount实现过程:1、首先读取文件sc.textfile("path"),可以是本地文件,也可以是hdfs上的文件2、首先进行扁平化操作,利用flatmap,将数据挤压出来hello,dwj1 hellohello,dwj2 =====> dwj1hello,dwj3 hello ...
2019-04-29 11:37:00 108
转载 大数据应用
一、日志分析系统1、特点(1)数据源多样化(2)流式数据(广告点击数据)(3)高并发(4)数据量大(5)近实时分析与离线处理2、要求(1)支持对种源数据(网页、mysql、Hive、Hbase等)(2)保证数据不丢失(少量丢失)(3)数据集中存储(4)近实时分析和离线分析3、大概的原理过程用户服务器提取用户日志——>将用户日志进行...
2019-03-06 11:23:00 82
转载 kafka安装
1、首先从apache kafka网站下载自己需要的kafka版本此处我们下载的是2.11版本http://kafka.apache.org/downloads并放到了/opt/workspace/目录下。2、在服务器上将kafka压缩包解压缩[root@master1 workspace]# tar -zxvf kafka_2.11-2.1.1.tgz3...
2019-03-05 17:16:00 69
转载 sparksql连接mysql
1、方法1:分别将两张表中的数据加载为DataFrame /* * 方法1:分别将两张表中的数据加载为DataFrame * */ /* Map<String,String> options = new HashMap<String,String>(); options.put...
2019-03-04 14:46:00 142
转载 大数据-HBase HA集群搭建
1、下载对应版本的Hbase,在我们搭建的集群环境中选用的是hbase-1.4.6将下载完成的hbase压缩包放到对应的目录下,此处我们的目录为/opt/workspace/2、对已经有的压缩包进行解压缩[root@master1 workspace]#tar -zxvf hbase-1.4.6-bin.tar.gz3、为了方便可以将文件重命名,此处我们不需要重命...
2019-03-01 13:21:00 139
转载 mysql误删root用户
在操作mysql时误删除root用户,如何进行恢复在安装hive时候误删除root用户,存在的用户没有权限,解决方法如下。1、首先在/etc/my.cnf文件中 mysqlID下面添加skip-grant-tables用来跳过安全密码验证2、在服务上重启mysql服务[root@master2 bin]# systemctl restart mysql...
2019-03-01 11:45:00 394
转载 大数据-hive安装
1、下载Hive需要的版本我们选用的是hive-3.1.0将下载下来的hive压缩文件放到/opt/workspace/下2、解压hive-3.1.0.tar.gz文件[root@master1 workspace]# tar -zxvf apache-hive-3.1.0-bin.tar.gz3、重命名[root@master1 workspace]...
2019-02-21 10:58:00 164
转载 大数据-spark HA集群搭建
一、安装scala我们安装的是scala-2.11.8 5台机器全部安装下载需要的安装包,放到特定的目录下/opt/workspace/并进行解压1、解压缩[root@master1 ~]# cd /opt/workspace[root@master1 workspace]#tar -zxvf scala-2.11.8.tar.gz 2、配置环境变量 ...
2019-02-20 16:48:00 236
转载 大数据-hadoop HA集群搭建
一、安装hadoop、HA及配置journalnode实现namenode HA实现resourcemanager HAnamenode节点之间通过journalnode同步元数据首先下载需要版本的hadoop,我用的版本是hadoop-2.9.1安装到5台机器上master1 master2上安装namenodemaster1 master2上配置re...
2019-02-20 14:34:00 241
转载 大数据-zookeeper集群安装
一、安装前发现的问题:1、安装前期发现jps权限不够[root@master1 ~]# jps-bash: /opt/workspace/jdk1.8/bin/jps: Permission denied解决:这时只需要添加一个权限即可chmod +x /usr/local/jdk8/bin/jpsx是执行权限2、中文乱码问题...
2019-02-19 21:54:00 210
转载 大数据平台-java、mysql安装
补充:对于ssh登录不是特定端口22的,进行文件修改vim /etc/ssh/sshd_configPort 61333简化后序命令输入,修改文件如下:一、java环境安装一共5台服务器:master1 、master2、slave1、slave2、slave3分别安装java环境1、在/opt文件下新建文件夹workspacemkd...
2019-02-18 20:33:00 105
转载 大数据平台-修改主机名及ssh免密码登录
一、查看服务器初始配置:1、总核数 = 物理CPU个数 X 每颗物理CPU的核数2、总逻辑CPU数 = 物理CPU个数 X 每颗物理CPU的核数 X 超线程数# 查看物理CPU个数cat /proc/cpuinfo| grep "physical id"| sort| uniq| wc -l# 查看每个物理CPU中core的个数(即核数)cat /proc/cpuinfo|...
2019-02-18 18:40:00 283
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人