运行spark——7. RDD依赖、stage划分、checkpoint

RDD依赖: 窄依赖:每一个父RDD的分区最多被子RDD的一个分区使用 宽依赖:每一个父RDD的分区被多个子RDD分区依赖 RDD依赖的作用: 血统(Lineage)会记录RDD的元数据和转换行为, 以便恢复丢失的分区。 stage划分: DAG(有向无环图):RDD的一...

2019-04-25 22:19:20

阅读数 2

评论数 0

运行spark——6. spark流程

启动流程: 客户端执行启动命令:start-all.sh 1. 首先启动Master节点(master),找到配置的slaves文件,获得需要启动的slave节点 2. 然后启动Worker节点(slave1,slave2) 3. Master节点要求Worker节点向Master发送注册...

2019-04-25 18:49:45

阅读数 4

评论数 0

scala——高阶函数:2. 柯里化

柯里化:把输入多个参数的函数变为输入1个参数的函数 声明方式: 1. 参数分开放在括号里 scala> def f1(x: Int)(y: Int) = x*y scala> val curry = f1(2) _ scala> curry(3)...

2019-04-25 00:48:35

阅读数 2

评论数 0

scala——高阶函数:1. 函数作为输入值

在数学和计算机科学中,高阶函数是至少满足下列一个条件的函数: 接受一个或多个函数作为输入 输出一个函数 scala> val arr = Array(1,2,3,4,5) arr: Array[Int] = Array(1, 2, 3, 4, 5) scala&...

2019-04-25 00:47:49

阅读数 1

评论数 0

scala——常用操作:3. scala实现wordcount

2019-04-25 00:46:48

阅读数 1

评论数 0

scala——常用操作:2. 常用操作

ctrl+alt+V 自动创建变量名 ctrl+alt+L 自动规范格式 package test01 object test { def main(args: Array[String]): Unit = { //创建一个list val list0 = List(2, 5,...

2019-04-25 00:44:51

阅读数 0

评论数 0

scala——常用操作:1. lazy惰性操作

lazy定义的变量是惰性变量 惰性变量是不可变变量,且只有在调用时才去执行 package test01 class test { } //只有在静态类object中才可以声明main方法 object test1{ def init(): Unit = { println(&quo...

2019-04-25 00:44:16

阅读数 1

评论数 0

scala——面向对象:4. 模式匹配

匹配字符串: package test01 import scala.util.Random /** * 匹配字符串 */ object test { def main(args: Array[String]): Unit = { val arr = Array("zho...

2019-04-25 00:41:20

阅读数 4

评论数 0

scala——面向对象:3. 特质、抽象类、继承、重写

特质、抽象类、继承、重写 特质:(trait) 相当于java的接口。 可以只声明变量,不赋值,但在调用时需要重写赋值 可以只声明方法,不实现,但在调用时需要重写实现 /** * 特质 */ trait Flyable{ //声明一个没有值的字段 val distance:...

2019-04-25 00:40:18

阅读数 1

评论数 0

hbase——3. 导入导出表

启动hadoop:start-all.sh 启动hbase:start-hbase.sh 导出表: 导出到hdfs:(也可以导出到本地) [root@hadoop01 ~]# hbase org.apache.hadoop.hbase.mapreduce.Export table1 h...

2019-04-21 20:58:08

阅读数 10

评论数 0

hbase——2.hbase shell

启动hbase: 1.启动hadoop,因为hbase架设在hdfs之上,start-all.sh 2.启动hbase,start-hbase.sh,hbase网址端口16010 3.进入shell命令行,hbase shell 创建表: create命令,需要指定表名和列族Co...

2019-04-21 20:56:09

阅读数 16

评论数 0

hbase——1.基础

hbase:高可靠型、高性能、面向列、可伸缩的分布式存储数据库, hbase运行于hdfs之上,使用zookeeper作为协调工具。 与关系型数据库对比: 1.数据类型方面 关系型数据库有很多数据类型(int,char等),hbase只有字符串。 2.数据操作方面 关系型数据库定义...

2019-04-21 20:51:11

阅读数 10

评论数 0

hive——2.使用

启动hive: 启动hadoop:start-all.sh 启动hive:hive [root@hadoop01 ~]# hive hive> DDL操作: 创建表: create命令 hive> create table student(id bi...

2019-04-21 20:48:37

阅读数 22

评论数 0

hive——1.安装

安装mysql: (1)下载安装包文件: wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm (2)安装mysql-community-release-el7-5.noarch.rpm包: rpm -ivh...

2019-04-21 20:46:16

阅读数 11

评论数 0

HDFS常用命令

前言 HDFS命令基本格式:hadoop fs -cmd < args > ls 命令 hadoop fs -ls / 1 列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls -R / 1 列出hdfs文件系统所有的目录和文件 put 命...

2019-04-21 20:41:00

阅读数 11

评论数 0

MapReduce——3.wordcount源码

现在来一部分 一部分的理解程序: 要写一个mapreduce程序,首先要实现一个map函数和reduce函数。 map的方法: protected void map(LongWritable key, Text value, Mapper<LongWritable, Tex...

2019-04-21 20:40:09

阅读数 11

评论数 0

MapReduce——2.运行WordCount

hadoop实现了wordcount.java,并打好了jar包,在目录: /hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.2.jar 1.启动hadoop,start-all.sh 2.在hdfs上创建个待分析的...

2019-04-21 20:38:44

阅读数 17

评论数 0

MapReduce——1.基础

官网教程:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html Hadoop Map/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T...

2019-04-21 20:34:39

阅读数 5

评论数 0

运行spark——5. 实例:wordcount

IDEA代码: import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object WordCount { def main(args: Array[String]): ...

2019-04-19 19:23:34

阅读数 28

评论数 0

运行spark——4.sbt打jar包

sbt 是 scala 的编译工具 安装: curl https://bintray.com/sbt/rpm/rpm > bintray-sbt-rpm.repo sudo mv bintray-sbt-rpm.repo /etc/yum.repos.d/ sudo yum ...

2019-04-19 19:19:06

阅读数 15

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭