自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 netcat安装

linux安装netcat: 1.下载 wget https://sourceforge.net/projects/netcat/files/netcat/0.7.1/netcat-0.7.1.tar.gz wget命令会把文件下载到当前目录 2.解压 3.查看编译文件 ./con...

2019-04-28 23:48:53

阅读数 1292

评论数 0

原创 spark sql——7. hive on spark

把hive的计算引擎换成spark,计算效率更快 在学习hive的时候发现,启动hive时会提示, 在hive 2版本,hadoop-MR已经被弃用,请考虑换成spark、tez,或换成hive 1.X版本 配置: 不用安装hive也可以在spark上使用hive,只需要以下两...

2019-04-27 15:29:39

阅读数 1249

评论数 0

原创 spark sql——4. rdd与dataframe相互转化

dataframe转rdd: dataframe转rdd很简单,直接.rdd即可 scala> val df = spark.table("people_result") df: org.apache.spark.sql.DataFrame = [id: i...

2019-04-27 15:28:11

阅读数 1248

评论数 0

原创 spark sql——3. Dataframe及常用操作

在《实例:spark sql操作hive表》中可以看到,都是对dataframe进行操作 spark sql以DataFrame作为基础数据类型 在spark-shell中操作: DataFrame: DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二...

2019-04-27 15:25:40

阅读数 1301

评论数 0

原创 spark sql——1. 简介

hive是shark的前身,shark是spark sql的前身 hive on spark 是把hive的计算引擎换成spark shark基于内存计算,比hive快100倍;即使基于磁盘也高10倍。 spark sql又比shark计算性能高出一两个数量级 shark对hive过度...

2019-04-27 15:24:27

阅读数 1241

评论数 0

原创 运行spark——7. RDD依赖、stage划分、checkpoint

RDD依赖: 窄依赖:每一个父RDD的分区最多被子RDD的一个分区使用 宽依赖:每一个父RDD的分区被多个子RDD分区依赖 RDD依赖的作用: 血统(Lineage)会记录RDD的元数据和转换行为, 以便恢复丢失的分区。 stage划分: DAG(有向无环图):RDD的一...

2019-04-25 22:19:20

阅读数 1241

评论数 0

原创 运行spark——6. spark流程

启动流程: 客户端执行启动命令:start-all.sh 1. 首先启动Master节点(master),找到配置的slaves文件,获得需要启动的slave节点 2. 然后启动Worker节点(slave1,slave2) 3. Master节点要求Worker节点向Master发送注册...

2019-04-25 18:49:45

阅读数 1234

评论数 0

原创 scala——高阶函数:2. 柯里化

柯里化:把输入多个参数的函数变为输入1个参数的函数 声明方式: 1. 参数分开放在括号里 scala> def f1(x: Int)(y: Int) = x*y scala> val curry = f1(2) _ scala> curry(3)...

2019-04-25 00:48:35

阅读数 1218

评论数 0

原创 scala——高阶函数:1. 函数作为输入值

在数学和计算机科学中,高阶函数是至少满足下列一个条件的函数: 接受一个或多个函数作为输入 输出一个函数 scala> val arr = Array(1,2,3,4,5) arr: Array[Int] = Array(1, 2, 3, 4, 5) scala&...

2019-04-25 00:47:49

阅读数 1230

评论数 0

原创 scala——常用操作:3. scala实现wordcount

2019-04-25 00:46:48

阅读数 1235

评论数 0

原创 scala——常用操作:2. 常用操作

ctrl+alt+V 自动创建变量名 ctrl+alt+L 自动规范格式 package test01 object test { def main(args: Array[String]): Unit = { //创建一个list val list0 = List(2, 5,...

2019-04-25 00:44:51

阅读数 1233

评论数 0

原创 scala——常用操作:1. lazy惰性操作

lazy定义的变量是惰性变量 惰性变量是不可变变量,且只有在调用时才去执行 package test01 class test { } //只有在静态类object中才可以声明main方法 object test1{ def init(): Unit = { println(&quo...

2019-04-25 00:44:16

阅读数 1240

评论数 0

原创 scala——面向对象:4. 模式匹配

匹配字符串: package test01 import scala.util.Random /** * 匹配字符串 */ object test { def main(args: Array[String]): Unit = { val arr = Array("zho...

2019-04-25 00:41:20

阅读数 1220

评论数 0

原创 scala——面向对象:3. 特质、抽象类、继承、重写

特质、抽象类、继承、重写 特质:(trait) 相当于java的接口。 可以只声明变量,不赋值,但在调用时需要重写赋值 可以只声明方法,不实现,但在调用时需要重写实现 /** * 特质 */ trait Flyable{ //声明一个没有值的字段 val distance:...

2019-04-25 00:40:18

阅读数 1225

评论数 0

原创 hbase——3. 导入导出表

启动hadoop:start-all.sh 启动hbase:start-hbase.sh 导出表: 导出到hdfs:(也可以导出到本地) [root@hadoop01 ~]# hbase org.apache.hadoop.hbase.mapreduce.Export table1 h...

2019-04-21 20:58:08

阅读数 1238

评论数 0

原创 hbase——2.hbase shell

启动hbase: 1.启动hadoop,因为hbase架设在hdfs之上,start-all.sh 2.启动hbase,start-hbase.sh,hbase网址端口16010 3.进入shell命令行,hbase shell 创建表: create命令,需要指定表名和列族Co...

2019-04-21 20:56:09

阅读数 1269

评论数 0

原创 hbase——1.基础

hbase:高可靠型、高性能、面向列、可伸缩的分布式存储数据库, hbase运行于hdfs之上,使用zookeeper作为协调工具。 与关系型数据库对比: 1.数据类型方面 关系型数据库有很多数据类型(int,char等),hbase只有字符串。 2.数据操作方面 关系型数据库定义...

2019-04-21 20:51:11

阅读数 1239

评论数 0

原创 hive——2.使用

启动hive: 启动hadoop:start-all.sh 启动hive:hive [root@hadoop01 ~]# hive hive> DDL操作: 创建表: create命令 hive> create table student(id bi...

2019-04-21 20:48:37

阅读数 1276

评论数 0

原创 hive——1.安装

安装mysql: (1)下载安装包文件: wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm (2)安装mysql-community-release-el7-5.noarch.rpm包: rpm -ivh...

2019-04-21 20:46:16

阅读数 1237

评论数 0

原创 HDFS常用命令

前言 HDFS命令基本格式:hadoop fs -cmd < args > ls 命令 hadoop fs -ls / 1 列出hdfs文件系统根目录下的目录和文件 hadoop fs -ls -R / 1 列出hdfs文件系统所有的目录和文件 put 命...

2019-04-21 20:41:00

阅读数 1227

评论数 0

提示
确定要删除当前文章?
取消 删除