2018年09月_longG_It

原创 Spark经典案例（广播、自定义排序、缓冲）--------------根据需求进行日志的分析

数据的相关信息：数据地址：链接：https://pan.baidu.com/s/1kFCbYlpYW3xROAl9VvBlIg 密码：12tw ipAddress: String, // IP地址 clientId: String, // 客户端唯一标识符 ...

2018-09-28 15:05:43 244

原创 Spark缓冲、容错机制

一.缓冲文件太大的时候，不会全部放到内存中，实际文件大小30M，放到内存中达到90M：因为写入的文件当中存放的是二进制，而读取到内存中以后，使用Java对象序列化方式这种序列化会占用更大的空间，所以比实际大小要大实际上不会将内存全部占用，要给程序运行留下足够的内存注意： cache可以提高程序运行速度，但是如果使用一次就没必要cache，常用于反复的使用 cache既不...

2018-09-27 21:25:08 362

原创 Spark之广播变量详解------附加案例实现

1.广播变量的意义当大数据进行业务处理的时候，所需要的数据存储在HDFS上，但是HDFS上的数据都是一块一块的，如果数据不完整的话就不能进行业务的正常处理，所以需要将数据全部集中起来，去通过广播，让所有进行处理的executors获得全部的数据。2.下面一张高清大图说明广播的过程，Driver将数据collect到一起，然后将完整的数据分发到executors上,进行相应的处理 3.广播变...

2018-09-27 11:22:15 1238

原创 Spark中RDD启动方式、常用算子以及源码解析RDD属性

RDD简介1.启动方式2.常用算子总结1）简单算子2）高级算子3.源码解析RDD属性

2018-09-25 10:38:26 209

原创 WordCount在Spark的执行原理

1.首先看一下代码。package day01import org.apache.log4j.{Level, Logger}import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}/** * 这是一个scala版本的Spark词频统计程序 * Created by zhan...

2018-09-23 11:31:07 427

原创 Spark数据过滤、自定义分区、Shuffer调优经典案例（详解）

案例：根据学科取得最受欢迎的老师的前两名这个是数据http://bigdata.edu360.cn/zhangsanhttp://bigdata.edu360.cn/zhangsanhttp://bigdata.edu360.cn/lisihttp://bigdata.edu360.cn/lisihttp://bigdata.edu360.cn/lisihttp://bigdata...

2018-09-22 17:25:13 606

原创 Spark递交任务原理 || 经典案例深度分析--------------词频统计（多种语言）

Spark递交任务原理类似于Yarn调度任务的过程首先得客户端提交请求核心是SparkContext,通过SparkContext递交客户端请求（请求的源文件信息（描述数据的数据），不是具体的jar文件）服务端接收客户端请求，分配资源给Worker将任务信息和资源分配给具体的Worker这...

2018-09-18 14:16:25 758

原创 spark体系结构以及详细安装步骤和高可用的配置

1.Spark体系分为服务端和客户端（1）服务端分为主节点和从节点 1&amp;amp;gt;主节点是master，相当于Resourcemanager，职责是管理和调度资源和任务、接受客户端任务请求，部署在其他服务上（standaalong、Yarn。。。） 2&amp;amp;gt;从节点是worker，任务是从节点的资源和任务管...

2018-09-17 21:38:27 288

原创 HDFS高可用（HA)机制

定义：解决系统单点故障问题，防止一台nameNode挂了，就会出现数据丢失等问题。原理：（1）将数据记载在Qjournal分布式日志管理系统里面，活跃的nameNode会定时将数据上传到Qjournal里面，Qjournal也会定期将数据放到另一台不活跃的NameNode里面跟新，定期进行数据的刷新这样就会防止丢失（也是定期刷新fsimage镜像文件）...

2018-09-16 21:57:39 677

原创 scala的隐式转换 || 实例详解

定义：当Scala编译器进行类型匹配时，如果找不到合适的候选，那么隐式转化提供了另外一种途径来告诉编译器如何将当前的类型转换成预期类型。隐式参数（1）先看一下这个程序的运行结果object ImplicitParam {implicit val xxx = 777 def test(impli...

2018-09-16 10:00:12 313

原创柯里化详解-----------------Scala重点

定义：柯里化是将方法或者函数中一个带有多个参数的列表拆分成多个小的参数列表（一个或者多个参数）的过程，并且将参数应用前面参数列表时返回新的函数（调用函数求值，求得的值是下一个函数的一个参数，将参数传递给下一个函数）典型实例//这是一个没有柯里化的方法 scala> def sum(x:Int, y:Int) = x+ y ...

2018-09-16 09:35:49 240

原创如何在github上发布代码并且创建分支

所有 1.初始化仓库（1）新建项目（init那个勾选上） 2.初始化项目（1）创建一个描述信息的文件 touch README.md //里面填写描述信息（2）创建一个忽略的文件 touch .gitignore //将本地的文件进行忽略，不会到github上（3） git init /...

2018-09-14 21:01:52 1082

原创 scala中reduce函数原理解析------------------------------reduceLeft和reduceRight

看完图之后看具体实例 scala> val list = List(1,2,3,4,5) list: List[Int] = List(1, 2, 3, 4, 5) scala> list.reduce(_+_) res0: Int = 15 #这里0初始值，也是后面高阶函数的柯里化 sca...

2018-09-14 10:43:48 5132 1

原创 Scala经典案例-------------------------词频统计单机版和分布式实现

单机版scala> var arr = Array("Spark Hadopp Hive", "Hive Hbase", "Sqoop Redis Hadoop") arr: Array[String] = Array(Spark Hadopp Hive, Hive Hbase, Sqoop Redis Hadoop) ...

2018-09-11 22:36:11 1236

原创 scala难点----------------------------函数的参数求值策略、方法作为参数传递时自动做隐形转换

scala函数的参数：求值策略 1、call by value：对函数的实参求值，并只求值一次举例：def test1(x:Int, y:Int):Int = x+x 没有用到y 2、call by name：函数的实参每次在函数体内部被调用的时候，都会进行求值举例：def test2(x: =&gt; Int...

2018-09-11 22:33:31 278

原创 scala 基础(2) -------------------------方法、函数、数组、集合、元组

方法和函数scala面向函数式编程（最有特色的一部分）-》将函数作为函数的参数传递过去（*）方法和函数的区别 1.方法：相对于OOP来说类class 属性：名词方法：...

2018-09-11 22:30:30 386

原创 scala 基础 -------------------------变量的声明、条件表达式、块表达式、循环

变量的声明和使用  使用val和var申明变量例如：scala&gt; val answer = 8 * 3 + 2可以在后续表达式中使用这些名称  val：value 简写，表示的意思为值，不可变要申明其值可变的变量：val  var：variable 简写，表示的变量，可以改变值要申明其值不可变的变量：...

2018-09-10 19:20:55 163

原创 hbase rowkey 设计（避免热点问题） || 经典案例---------wordount结合HBase使用

热点问题：热点发生在大量的客户端直接访问集群的一个或极少数节点。访问可以是读，写，或者其他操作。大量访问会使热点region 所在的单个机器超出自身承受能力，引起性能下降甚至是 region 不可用。这也会影响同一个 regionserver 的其他 regions，由于主机无法服务其他region 的请求。设计良好的数据访问模式以使集群被充分，均衡的利用。这就涉及到了rowkey的...

2018-09-06 11:01:45 351

原创 HBase原理、特性以及工作机制 || 与传统数据优劣对比

首先说一下hbase服务器只进行数据的增删改查，存储的话是在HDFS上 hbase角色： hbase上有两个角色region server———&amp;amp;gt;进行数据的存储（一个服务器会管理几个region（区域））；master———–&amp;amp;gt;管理region server,他们两是通过zookeeper管理的，region server实时上报zookeeper自己的信息、ma...

2018-09-06 10:24:35 213

原创 HBase集群搭建（安装包在后面链接）以及常用操作（有详细说明）

安装篇1.上传hbase安装包（测试使用的是hbase1.2.6） 2.解压(tar -zxvf hbse…… -C /usr/local) 3.配置hbase集群，要修改3个文件（首先zk集群已经安装好了）注意：要把hadoop的hdfs-site.xml和core-site.xml 放到hbase/conf下 3.1修改hbase-env....

2018-09-05 14:43:32 294

原创 ZooKeeper典型案例-------------------分布式服务器上下线动态感知系统

分为服务器端和客户端，原理如下：客户端： //1.连接zookeeper//2.查询在线服务器，并注册监听//3.挑选服务器请求业务服务器端：//1.获取zk连接//2.注册服务器信息//3.等待请求，处理业务客户端：public class Consume { List<String> onlineServers; privat...

2018-09-03 22:56:53 253

原创 Zookeeper原理解析、详细安装步骤以及常用操作（安装包在最后）

安装步骤1.先解压到指定目录 tar -zxvf zookeper……. -C /usr/local 2.添加一个zoo.cfg配置文件，复制根目录下的zoo_sample.cfg文件 # $ZOOKEEPER是安装zookeeper的根目录 ...

2018-09-03 21:56:10 504

qq_41166135的博客