启明龍-CSDN博客

原创 Scala方法定义方式

方法定义定义方法的基本格式是：def 方法名称（参数列表）：返回值 = 方法体方式1：标准形式def add(a:Int,b:Int):Int={ var sum=a+b return sum}解析：（1）def 为Scala中定义函数的标识符；（2）a:Int 其中a为传入函数的形参值，Int为数据类型；注：Scal...

2018-10-29 11:33:24 2820

原创 Scala变量修饰符

Scala对每个成员变量都提供getter和setter方法,getter和setter分别叫做XXX和XXX_=1.var修饰成员变量例：定义Person类，类中只含有一个成员变量username，如下图：var修饰的成员变量，Scala会提供默认的getter和setter方法，调用方式如下：（1）getter方式---对象.成员变量名取值时调用了方法usernam...

2018-10-29 11:33:15 725

原创 Scala构造器

在Scala中构造器分为两种，分别称为主构造器和辅助构造器。1.主构造器（1）常规形式Scala主构造函数基本形式如上图所示。创建对象时必须将初始值传入主构造器。这是Person类中的两个成员变量被赋初值。（2）主构造器传入参数无修饰符当传入的参数没有修饰符时，传入的参数不会形成实际的字段，不可以被调用，否则会报错，该参数不是该类的成员，如下：这种情...

2018-10-29 11:33:09 602

原创 Scala 抽象类抽象方法抽象字段

1.抽象类如果父类中的方法不能立即实现，需要依赖其他子类进行覆盖实现则可以将类定义为抽象类。抽象类的写法：abstract class 类名{XXXX...}注：1.包含抽象成员的类必须声明为抽象类。2.抽象类不能创建对象，即不能实例化。 2.抽象方法一个方法只要没有实现，即没有等号或者方法体，那么它就是抽象方法。子类覆盖抽象类方法不需要写o...

2018-10-29 11:33:01 1611

原创 Hive安装与配置（Linux）

1.说明（1）安装Hive之前必须配置好hadoop环境；（2）安装Hive之前必须配置好JDK；（3）本文建议安装mysql数据库·；（4）Hive可以只安装在namenode所在的机器上，如果NameNode有多个，则每个都需要安装，可以不在datanode上安装。（5）本文hadoop的运行采用伪分布式；（6）本文中的所有目录（路径）均为本人自定义，访客可根据自己的需...

2018-10-29 11:32:49 5938 2

原创 Linux 集群搭建

1.Linux虚拟机系统安装NAT模式注意网关配置要与虚拟机的网关配置保持一致（编辑-->虚拟网络编辑器）可...

2018-10-29 11:32:27 521

原创 Linux配置本地yum源

1.加载Linux的本地镜像文件将镜像挂载到指定文件mount -o loop /dev/cdrom /media/cdrom2.创建保存yum源数据的目录3.将yum源中的数据拷贝到该目录4.查看本地yum源数据5.进入yum配置文件目录 6.创建bak文件夹，将除了Centos-Media.repo文件的余下文件剪切到bak文件夹7....

2018-10-29 11:31:47 267

原创 HDFS 常用shell命令

1.shell基本格式（1）针对HDFS的shell格式例：hadoop fs -ls hdfs://namenode:host/parent/child也可以省略hdfs://namenode:hosthadoop fs -ls /parent/child（2）针对本地文件系统的shell格式注：本地文件系统指的是客户端所在的系统。hadoop fs -ls fi...

2018-10-29 11:31:20 1381

原创 HDFS数据流-----文件写入

HDFS数据上传大体分为两个阶段，第一阶段是客户端与NameNode交互阶段，第二阶段是客户端与DataNode交互阶段。1.客户端与NameNode交互阶段流程如下：假设客户端要上传的文件为A.log（文件大小大于128M），目标目录/log（1）客户端向NameNode请求上传文件；（2）NameNode查看自己的目录和文件的属性信息，判断是否是重复目录或文件；（...

2018-10-29 11:30:57 544

原创 Hive访问方式

Hive的访问方式主要分为两种，一种是本地模式，通常用于单机测试，另一种是远程连接模式，比较常用。本文前提：1.本文使用的软件版本为：hadoop2.7.4hive1.2.1jdk1.82.运行hive之前保证jdk与hadoop配置完毕，并且启动HDFS和Yarn。1.本地模式在hive安装路径bin目录下，直接运行hive脚本，即可进入本地模式，如下图所示：...

2018-10-29 11:30:26 5569

原创 MapReduce执行流程解析

本文基于hadoop2.x，以wordcount为例解析MapReduce执行流程。注：假设HDFS中有两个文件。分别为1.txt（150M），2.txt（100M）1.Map阶段步骤：（1）hadoop扫描指定路径下的所有文件，本文指的是1.txt和2.txt，并将其进行逻辑切片（也可称为逻辑规划），每个切片被称为split。通常切片大小与block大小保持一致。本文中两个文件将...

2018-10-29 11:29:42 1145

原创 IDEA编译GibHub项目并装载至本地Maven库

1.下载GitHub上的项目到本地并解压2.用IDEA导入工程3.提前在IDEA上安装好maven，编译导入的工程4.对工程进行打包5.查看工程下target目录下生成的jar包6.将jar包安装到maven库7.查看本地maven库8.可以在其他工程中引入该jar包...

2018-10-29 11:28:20 344

原创 IDEA搭建SSM项目

在main下面创建java和rescources文件夹将java文件夹设置为Sources Root将resources文件夹设置为Resources Root <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.o...

2018-10-29 11:27:57 464

原创 Spark2.x源码分析---spark-submit提交流程

本文以spark on yarn的yarn-cluster模式进行源码解析，如有不妥之处，欢迎吐槽。步骤1.spark-submit提交任务脚本spark-submit --class 主类路径 \--master yarn \--deploy-mode cluster \--driver-memory 申请driver内存 \--executor-memory 申请每个exec...

2018-10-29 11:27:33 758 1

moneycrazy的博客