你好，阳光-CSDN博客

原创 Spark集群——虚拟机时间同步、设置静态IP

调整虚拟机时间使之同步，每个虚拟机上都执行ntpdate 0.centos.pool.ntp.org设置静态IP(使用NAT的网络模式)ifconfig我的虚拟机是ens33vi /etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTO=static #dhcp改为static（修改）ONBOOT=yes #开机启用本配置，一般在最后...

2019-04-15 12:56:18 272

原创 Centos7下安装（Hadoop2.7.6+Spark2.3.1）

预先准备：jdk1.8安装包、scala2.11.8安装包、hadoop2.7.6安装包、spark2.3.1安装包1、安装JDK解压jdk-8u181-linux-x64.tar.gz到/usr/local/java/文件夹下修改配置文件vi /etc/profileexport JAVA_HOME=/usr/local/java/jdk1.8.0_181export CLASSPA...

2019-04-15 12:48:41 1747

原创 Scala基础———匹配模式

Match /* * 匹配模式————match * 不需要使用break * 使用case_进行通配 * Scala中match...case取代Java中的switch...case * */ * var result = 0 val op = '-' op match { case '+' =&...

2019-01-10 21:06:51 175

原创 Scala基础——stream和view

Stream /* * steam * 是一个集合，是lazy的，可以用于存放无穷多个元素 * 使用#::得到一个stream * */ //initNum是传入的初始值 //initNum+1是通项公式 //不断回调函数numsForm def numsForm(initNum:BigInt):Stream[BigInt]={...

2019-01-08 21:36:52 398

curry柯里化函数式编程的一个思想：只传递给函数一部分参数来调用函数，然后返回一个函数去处理剩下的参数。简单说curry就是对高阶函数（就是一种对过程的抽象参考map它就是一个抽象的过程）的降阶处理。比如 function(arg1,arg2)变成function(arg1)(arg2)。function(arg1,arg2,arg3)变成function(arg1)(arg2)(arg3...

2019-01-08 17:47:31 256

原创 Scala基础——Lazy和Exception

Lazy /* * Lazy * 当val被声明为lazy时，初始化将被推迟，直到我们首次对此取值 * */ def play9(a1:Int)={ println("执行play9") a1 } lazy val l=play9(10) println("定义lazy") println(l)Ex...

2019-01-08 16:49:32 110

原创 Scala基础——函数

函数 /* * 函数定义 * def 函数名(参数名1: 参数类型1, 参数名2: 参数类型2) : 返回类型 = {函数体} * 显式定义了返回类型，才可以return * */ def play1 =1 //标准形式,返回任一类型 def play2(a1:Int,a2:Int): Unit ={ a1+a2...

2019-01-07 21:28:40 114

原创 Scala基础——几种循环的使用

if else /* * if else * */ var a = 10 //自动推断 val desc = if(a&gt;10){ "a大于10" }else if(a==10){ 50 }else{ "a小于10" } println(desc)while循环

2019-01-07 19:10:22 295

原创 Scala基础——变量以及函数

变量声明 /* * val定义的值是不可变的，称为只读变量 * var定义的值是可变的 * 默认情况下变量定义为val * */ val a1=10 var a2=20静态方法和非静态方法scala中没有静态方法这个概念，需要通过伴生类对象来实现调用非静态方法时，直接使用对象调用Apply方法和update方法 /* * app...

2019-01-07 17:23:59 209

原创 IDEA上运行Scala代码

IDEA新建一个maven project（若没有Scala插件，可进行在线安装或选择本地scala离线安装）创建Scala object（若在新建Scala类时没有该选项，则点击该项目右键，Add framework Support）打包程序：在View-Tool windows-maven projects下，找到当前项目，点击package，出现BUILD SUCCESS，则打包成功...

2019-01-07 17:16:49 4414

原创 Scala基础——映射、折叠、化简、扫描等

映射 /*集合中的元素与函数间的映射 * Map * 对集合中的每一个元素遍历使用该函数对其进行操作，即将集合中的每一个元素映射到某一个函数 * 如转换大小写，将list1中的每个元素都在函数中进行大小写转换 * map(f),输出为List(ALICE, HAHA, BOB) * */ //转换大小写 val list1=...

2019-01-04 20:44:25 623

原创 Scala基础——Set

Set集 /* * Set集是不重复元素的集合，不保留顺序，默认以哈希集实现 * 默认使用不可变集合 * */ //不可变 val set1= Set(1,2,2,3,4) println(set1) //可变集 val set2=scala.collection.mutable.Set(1,2,2,3,4) ...

2019-01-04 16:52:23 182

原创 Scala基础——Map

映射Map def main(args: Array[String]): Unit = { /* * Map，无序的,其中的元素可以直接是元祖 * 不可变映射中的值不能直接修改 * 可变映射追加操作：key值有则修改，无则添加 * */ //不可变映射 val map1= scala.collection.immutable....

2019-01-04 13:08:57 184

原创 Scala基础——队列

队列Queue import scala.collection.mutable.Queue val q1 = Queue[Int](1,2) println(q1) val q2 = new Queue[Int]() //追加元素 //追加单个元素 q2+=10 q2.enqueue(99,100)//容易耗费过多时间，因为需要对队列进行重新排序...

2018-12-26 12:45:15 404 1

原创 Scala基础——列表

列表List

2018-12-26 12:26:21 119

原创 Scala基础——元祖

元祖Tuple /** * 元祖 * */ //创建 val tuple1 =(1,2,3.toFloat,"hhhhh",4) //不可赋值，只能存放结果 println(tuple1._4) //遍历方式1：首先需要将tuple创建为迭代器，才能遍历 for(x <- tuple1.produc...

2018-12-25 20:57:46 271

原创 Scala基础——集合

scala中默认使用的都是不可变集合scala中可变和不可变集合几乎都有对应的版本不可变集合，容量固定；可变集合，可以扩展。数组Array、ArrayBuffer定长数组 //定义 val arr1= new Array[Int](10) println(arr1.mkString(&amp;quot;,&amp;quot;)) //隐式调用apply方法 ...

2018-12-24 22:26:11 121

原创 MLlib中的K-means算法（一）

MLlib是Spark提供的一个实现了很多常用机器学习算法的工具包。Mahout比较成熟并且算法丰富，但是运行速度慢。下面将主要对机器学习中的聚类K-means算法进行介绍。K-means算法一种无监督学习算法，是一种经典的聚类算法，它的思想是对大量未知标注的数据集，按数据的内在相似度将数据集划分为多个簇，使得簇内数据相似度大而簇间相似度小，一般通过欧式距离度量数据间的相似度，相似度高的距...

2018-12-06 21:50:34 288

原创在spark集群中运行程序遇到的一些问题

使用的是yarn模式，所以运行程序之前需要先将所用数据集传到hdfs上//查看hdfs的目录./hdfs dfs -ls//新建一个data文件夹./hdfs dfs -mkdir /data//将文件上传到data文件夹下./hdfs dfs -put /root/Readme.txt /data在程序中，读取文件可以读取本地文件，也有读取hdfs中的文件val sc = n...

2018-10-09 21:19:14 275

原创 Spark中的向量Vectors

哈哈哈

2018-10-08 21:49:35 5371 1

weixin_42292787的博客