spark相关
文章平均质量分 50
52Pig
这个作者很懒,什么都没留下…
展开
-
spark之map与flatMap区别
scala> val m = List(List("a","b"),List("c","d"))m: List[List[String]] = List(List(a, b), List(c, d))scala> m.flattenres8: List[String] = List(a, b, c, d)scala> val n = List(List(1,2),List(3,原创 2015-03-19 19:51:39 · 4371 阅读 · 0 评论 -
Scala模式匹配下的赋值语句
示例代码:object Assinment_Internals { def main(args: Array[String]): Unit = { //@是别名,变量b的值是1000,同时把a绑定到b上,可以认为a是b的别名,其实使用模式匹配完成的。// 模式匹配完成之后会同时返回a和b的内容 val a@b = 1000 //a = 1000, b =原创 2015-08-06 21:45:16 · 804 阅读 · 0 评论 -
Scala模式匹配下提取器构造
示例代码:object :> { def unapply[A] (list:List[A]) = { Some( (list.init,list.last) ) }}object Extractor_Advanced { def main(args: Array[String]): Unit = { (1 to 9).toList match{ cas原创 2015-08-06 21:49:39 · 694 阅读 · 0 评论 -
Scala中的Type与Class
示例代码://Type与Class实战详解/** * 类型系统与类 * * 无论java还是scala都是基于jvm虚拟机 * java1.5以前一个具体对象的类型和他的class是一一对应的,后来由于引入了泛型。 * 例如数组,数组里面有可能是字符串也可能是整数类型等等, * 虚拟机本身并不关心泛型,或者类型系统,在虚拟机中泛型在编译和运行时是被擦除掉的。 * 在运行时是通原创 2015-08-06 23:10:58 · 1038 阅读 · 0 评论 -
Itellij IDEA启动报错
打开idea启动报错:Internal error. Please report to http://jb.gg/ide/critical-startup-errorsjava.lang.IllegalStateException: failed to create a child event loop at io.netty.util.concurrent.Multith原创 2016-01-05 19:18:31 · 22364 阅读 · 3 评论 -
mllib之随机森林与梯度提升树
随机森林和GBTs都是集成学习算法,它们通过集成多棵决策树来实现强分类器。集成学习方法就是基于其他的机器学习算法,并把它们有效的组合起来的一种机器学习算法。组合产生的算法相比其中任何一种算法模型更强大、准确。随机森林和梯度提升树(GBTs)。两者之间主要差别在于每棵树训练的顺序。随机森林通过对数据随机采样来单独训练每一棵树。这种随机性也使得模型相对于单决策树更健壮,原创 2015-04-13 21:53:22 · 2367 阅读 · 1 评论 -
mllib:Exception in thread "main" org.apache.spark.SparkException: Input validation failed.
当我们使用mllib做分类,用到逻辑回归或线性支持向量机做分类时,可能会出现下面的错误:15/04/09 21:27:25 ERROR DataValidators: Classification labels should be 0 or 1. Found 3000000 invalid labelsException in thread "main" org.apache.spark.S原创 2015-04-09 22:31:30 · 3564 阅读 · 1 评论 -
mllib:java.lang.IllegalArgumentException: GiniAggregator given label 2.0 but requires label < numCla
报错信息 : java.lang.IllegalArgumentException: GiniAggregator given label 2.0 but requires label 在用mllib做分类,当用到一些分类算法时,常常需要加入基尼系数。程序代码:RandomForest.trainClassifier(validData,2,Map[In原创 2015-04-09 21:16:31 · 3976 阅读 · 0 评论 -
spark WARNTaskSchedulerImpl:Initial job has not accepted any resources; check your cluster UI to
spark在提交任务时,出现如下错误:从警告信息上看,初始化job时没有获取到任何资源;提示检查集群,确保workers可以被注册并有足够的内存资源。如上问题产生的原因是多方面的,可能原因如下:1.因为提交任务的节点不能和spark工作节点交互,因为提交完任务后提交任务节点上会起一个进程,展示任务进度,大多端口为4044,工作节点需要反馈进度给该该端口,所以如果原创 2015-03-26 22:26:03 · 28525 阅读 · 3 评论 -
mllib之梯度下降公式推导
梯度下降(GD)是最小化风险函数、损失函数的一种常用方法,随机梯度下降和批量梯度下降是两种迭代求解思路,下面从公式和实现的角度对两者进行分析,如有哪个方面写的不对,希望网友纠正。下面的h(x)是要拟合的函数,J(theta)损失函数,theta是参数,要迭代求解的值,theta求解出来了那最终要拟合的函数h(theta)就出来了。其中m是训练集的记录条数,j是参数的个数。原创 2015-03-25 00:15:14 · 2211 阅读 · 0 评论 -
Scala中ListBuffer高效遍历
package com.dt.scala.listobject ListBuffer_Internals { def main(args: Array[String]): Unit = { val list = List(1,2,3,4,5,6,7,8,9) increment(list) increment_MoreEffective(list) inc原创 2015-08-19 06:26:10 · 4188 阅读 · 0 评论 -
Scala List中的上界下界以及逆变、协变
package com.dt.scala.listabstract class Big_Dataclass Hadoop extends Big_Dataclass Spark extends Big_Dataobject List_Constructor_Internals { def main(args: Array[String]): Unit = { val had原创 2015-08-19 07:09:19 · 933 阅读 · 0 评论 -
scala并发编程原生线程Actor、Case Class下的消息传递和偏函数实战
scala并发编程原生线程Actor、Case Class下的消息传递和偏函数实战原创 2015-07-25 22:45:09 · 737 阅读 · 0 评论 -
spark开发程序编写注意点
看书时发现书中写的不一定是正确的。eg:scala> val line = sc.textFile("hdfs://Spark:9000/user/root/README.md")15/03/19 20:03:04 INFO MemoryStore: ensureFreeSpace(202004) called with curMem=744765, maxMem=2802489751原创 2015-03-19 20:08:55 · 1047 阅读 · 0 评论 -
IDEA的auto import 与 Scala的隐式转换
设置IDEA的auto import 之后,编写Spark应用程序时的一些自动导入情况及其说明。1.普通类的自动导入var cnames = new ArrayBuffer[String]()var ips = new ArrayBuffer[String]()直接根据提示alt+enter便可以导入ArrayBuffer类包2.需要隐式转换val joinRDD = r原创 2015-03-05 23:08:05 · 3555 阅读 · 0 评论 -
spark中各种连接操作以及实用方法
val a = sc.parallelize(Array(("123",4.0),("456",9.0),("789",9.0)) val b = sc.parallelize(Array(("123",8.0),("789",10))) val c = a.join(b) c.foreach(println) /* (123,(4.0,8.0))原创 2015-06-04 21:23:41 · 2454 阅读 · 0 评论 -
Scala并发编程react、loop代码实战详解
Scala并发编程react、loop代码实战详解原创 2015-07-26 15:12:23 · 1048 阅读 · 0 评论 -
scala界面GUI编程实战初步了解
示例代码:import scala.swing._//SimpleSwingApplication继承自SwingApplication类(此类中有main方法,因此可以运行显示界面)object Hello_GUI extends SimpleSwingApplication { def top = new MainFrame{ //顶级容器 title = "Hello原创 2015-07-27 22:30:22 · 1241 阅读 · 0 评论 -
Scala界面Panel、Layout初探
示例代码:package com.dt.scala.guiimport scala.swing.SimpleSwingApplicationimport scala.swing.MainFrameimport scala.swing.Buttonimport scala.swing.Labelimport scala.swing.Orientationimport scala.s原创 2015-07-28 21:13:24 · 995 阅读 · 0 评论 -
Scala界面事件处理
示例代码:import scala.swing.SimpleSwingApplicationimport scala.swing.MainFrameimport scala.swing.Buttonimport scala.swing.Labelimport scala.swing.Orientationimport scala.swing.BoxPanelimport s原创 2015-07-29 23:58:32 · 1220 阅读 · 0 评论 -
从spark源码的角度思考scala中的模式匹配
1.scala中模式匹配2.spark源码中的模式匹配思考spark中master会收到worker发过来的akka的消息,此消息是case class即(Master.class中):case class RegisterWorker( id:String, host:String, port:Int, cores:Int, memo原创 2015-08-02 09:35:47 · 565 阅读 · 0 评论 -
Scala模式匹配下的for循环
示例代码:object For_Advanced { def main(args: Array[String]): Unit = { /** * for循环内部调用的源码其实是: * * @inline override final * def foreach[B](f: A=> B){ * var these原创 2015-08-02 10:04:22 · 1493 阅读 · 0 评论 -
mllib之高数篇
机器学习的目标是:对于给定的一个训练数据集,通过不断地分析和学习产生一个联系属性集合和类标的分类函数(Classification Function)或预测函数(Prediction Function),这个函数称为分类模型(Classification Model)或预测模型(Prediction Model).通过这个模型可以对输入对象的特征向量预测或对对象的类标进行分类。超定方程原创 2015-03-24 21:40:01 · 974 阅读 · 0 评论