自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 Spark集群——虚拟机时间同步、设置静态IP

调整虚拟机时间使之同步,每个虚拟机上都执行ntpdate 0.centos.pool.ntp.org设置静态IP(使用NAT的网络模式)ifconfig我的虚拟机是ens33vi /etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTO=static #dhcp改为static(修改)ONBOOT=yes #开机启用本配置,一般在最后...

2019-04-15 12:56:18 272

原创 Centos7下安装(Hadoop2.7.6+Spark2.3.1)

预先准备:jdk1.8安装包、scala2.11.8安装包、hadoop2.7.6安装包、spark2.3.1安装包1、安装JDK解压jdk-8u181-linux-x64.tar.gz到/usr/local/java/文件夹下修改配置文件vi /etc/profileexport JAVA_HOME=/usr/local/java/jdk1.8.0_181export CLASSPA...

2019-04-15 12:48:41 1747

原创 Scala基础———匹配模式

Match /* * 匹配模式————match * 不需要使用break * 使用case_进行通配 * Scala中match...case取代Java中的switch...case * */ * var result = 0 val op = '-' op match { case '+' =&...

2019-01-10 21:06:51 175

原创 Scala基础——stream和view

Stream /* * steam * 是一个集合,是lazy的,可以用于存放无穷多个元素 * 使用#::得到一个stream * */ //initNum是传入的初始值 //initNum+1是通项公式 //不断回调函数numsForm def numsForm(initNum:BigInt):Stream[BigInt]={...

2019-01-08 21:36:52 398

原创 Scala函数式编程——Curry柯里化

curry柯里化函数式编程的一个思想:只传递给函数一部分参数来调用函数,然后返回一个函数去处理剩下的参数。简单说curry就是对高阶函数(就是一种对过程的抽象 参考map它就是一个抽象的过程)的降阶处理。比如 function(arg1,arg2)变成function(arg1)(arg2)。function(arg1,arg2,arg3)变成function(arg1)(arg2)(arg3...

2019-01-08 17:47:31 256

原创 Scala基础——Lazy和Exception

Lazy /* * Lazy * 当val被声明为lazy时,初始化将被推迟,直到我们首次对此取值 * */ def play9(a1:Int)={ println("执行play9") a1 } lazy val l=play9(10) println("定义lazy") println(l)Ex...

2019-01-08 16:49:32 110

原创 Scala基础——函数

函数 /* * 函数定义 * def 函数名(参数名1: 参数类型1, 参数名2: 参数类型2) : 返回类型 = {函数体} * 显式定义了返回类型,才可以return * */ def play1 =1 //标准形式,返回任一类型 def play2(a1:Int,a2:Int): Unit ={ a1+a2...

2019-01-07 21:28:40 114

原创 Scala基础——几种循环的使用

if else /* * if else * */ var a = 10 //自动推断 val desc = if(a>10){ "a大于10" }else if(a==10){ 50 }else{ "a小于10" } println(desc)while循环

2019-01-07 19:10:22 295

原创 Scala基础——变量以及函数

变量声明 /* * val定义的值是不可变的,称为只读变量 * var定义的值是可变的 * 默认情况下变量定义为val * */ val a1=10 var a2=20静态方法和非静态方法scala中没有静态方法这个概念,需要通过伴生类对象来实现调用非静态方法时,直接使用对象调用Apply方法和update方法 /* * app...

2019-01-07 17:23:59 209

原创 IDEA上运行Scala代码

IDEA新建一个maven project(若没有Scala插件,可进行在线安装或选择本地scala离线安装)创建Scala object(若在新建Scala类时没有该选项,则点击该项目右键,Add framework Support)打包程序:在View-Tool windows-maven projects下,找到当前项目,点击package,出现BUILD SUCCESS,则打包成功...

2019-01-07 17:16:49 4414

原创 Scala基础——映射、折叠、化简、扫描等

映射 /*集合中的元素与函数间的映射 * Map * 对集合中的每一个元素遍历使用该函数对其进行操作,即将集合中的每一个元素映射到某一个函数 * 如转换大小写,将list1中的每个元素都在函数中进行大小写转换 * map(f),输出为List(ALICE, HAHA, BOB) * */ //转换大小写 val list1=...

2019-01-04 20:44:25 623

原创 Scala基础——Set

Set集 /* * Set集是不重复元素的集合,不保留顺序,默认以哈希集实现 * 默认使用不可变集合 * */ //不可变 val set1= Set(1,2,2,3,4) println(set1) //可变集 val set2=scala.collection.mutable.Set(1,2,2,3,4) ...

2019-01-04 16:52:23 182

原创 Scala基础——Map

映射Map def main(args: Array[String]): Unit = { /* * Map,无序的,其中的元素可以直接是元祖 * 不可变映射中的值不能直接修改 * 可变映射追加操作:key值有则修改,无则添加 * */ //不可变映射 val map1= scala.collection.immutable....

2019-01-04 13:08:57 184

原创 Scala基础——队列

队列Queue import scala.collection.mutable.Queue val q1 = Queue[Int](1,2) println(q1) val q2 = new Queue[Int]() //追加元素 //追加单个元素 q2+=10 q2.enqueue(99,100)//容易耗费过多时间,因为需要对队列进行重新排序...

2018-12-26 12:45:15 404 1

原创 Scala基础——列表

列表List

2018-12-26 12:26:21 119

原创 Scala基础——元祖

元祖Tuple /** * 元祖 * */ //创建 val tuple1 =(1,2,3.toFloat,"hhhhh",4) //不可赋值,只能存放结果 println(tuple1._4) //遍历方式1:首先需要将tuple创建为迭代器,才能遍历 for(x <- tuple1.produc...

2018-12-25 20:57:46 271

原创 Scala基础——集合

scala中默认使用的都是不可变集合scala中可变和不可变集合几乎都有对应的版本不可变集合,容量固定;可变集合,可以扩展。数组Array、ArrayBuffer定长数组 //定义 val arr1= new Array[Int](10) println(arr1.mkString(",")) //隐式调用apply方法 ...

2018-12-24 22:26:11 121

原创 MLlib中的K-means算法(一)

MLlib是Spark提供的一个实现了很多常用机器学习算法的工具包。Mahout比较成熟并且算法丰富,但是运行速度慢。下面将主要对机器学习中的聚类K-means算法进行介绍。K-means算法一种无监督学习算法,是一种经典的聚类算法,它的思想是对大量未知标注的数据集,按数据的内在相似度将数据集划分为多个簇,使得簇内数据相似度大而簇间相似度小,一般通过欧式距离度量数据间的相似度,相似度高的距...

2018-12-06 21:50:34 288

原创 在spark集群中运行程序遇到的一些问题

使用的是yarn模式,所以运行程序之前需要先将所用数据集传到hdfs上//查看hdfs的目录./hdfs dfs -ls//新建一个data文件夹./hdfs dfs -mkdir /data//将文件上传到data文件夹下./hdfs dfs -put /root/Readme.txt /data在程序中,读取文件可以读取本地文件,也有读取hdfs中的文件val sc = n...

2018-10-09 21:19:14 275

原创 Spark中的向量Vectors

哈哈哈

2018-10-08 21:49:35 5371 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除