spark
冰竹依梦
这个作者很懒,什么都没留下…
展开
-
spark Rdds介绍
Driver program:包含main方法,RDDs定义和操作管理很多节点,executorsSparkContext: Driver program通过spark context对象访问spark, 代表和一个集群的连接,在shell中自动创建好,就是scRDDs,弹性分布式数据集Resilient distributed datasets,并行分别在原创 2017-10-18 15:59:05 · 369 阅读 · 0 评论 -
mac安装Scala,spark, xgboost for python
spark安装参考 http://www.voidcn.com/article/p-vryenhcn-zn.htmlspark 安装参考 http://blog.csdn.net/lv836735240/article/details/52901819下载Scala解压修改配置文件sudo /etc/profile添加path export SCALA_HO原创 2018-01-13 10:24:24 · 811 阅读 · 0 评论 -
spark源码学习
Spark上手指南 https://dounm.github.io/2016/09/28/spark-tutorial/ spark源码官网 https://github.com/apache/spark/tree/master/mllibspark/mllib/src/main/scala/org/apache/spark/mllib/classification/Logistic原创 2017-11-24 09:46:28 · 373 阅读 · 0 评论 -
Scala实现逻辑回归分类,Titanic
1.读取文件import scala.io.Sourceobject myfirst { //titanic,LR def main(args: Array[String]) { val data= Source.fromFile("D:\\IDEA\\_01\\train.csv") data.foreach(print) }}import or原创 2017-10-31 14:49:39 · 1409 阅读 · 0 评论 -
intellij日志信息修改,隐藏INFO,只显示ERROR
要解决这个问题,主要是要正确设置好log4j文件,本文主要分析如何在local模式下,将Spark的INFO信息隐藏,不影响程序中的结果输出。1、在项目src路径下创建resources文件夹, 右击该文件Mark Directory as 选中Resources Root2、将spark根目录下的log4j.properties文件复制 到 src/resources文件夹下原创 2017-11-01 09:33:29 · 7528 阅读 · 2 评论 -
spark下载安装和第一个Wordcount程序
Java环境搭建JDK1.7下载,百度网盘 Scala下载安装 2.10.0spark下载 1.6.2IDEA下载安装Scala插件下载 https://plugins.jetbrains.com/plugin/1347-scala原创 2017-10-18 14:52:13 · 504 阅读 · 0 评论 -
spark,keyValue对RDDs
keyValue对RDDs创建keyValue对RDDs:使用map()函数,返回key/value对例如,包含数行数据的RDD,每行数据的第一个单词作为keys,整行作为valueval rdd=sc.textFile("/home/hellospark.txt")rdd.foreach(println)val rdd2= rdd.map(line=>(lines.spl原创 2017-10-18 20:39:39 · 468 阅读 · 0 评论 -
RDDs的特性
RDDs的特性血统关系图Spark维护这RDDs之间的依赖关系和创建关系,叫做血统关系图spark使用血统关系图计算每个RDD的需求和恢复丢失的数据代表着RDD是怎么获得的,而且又做了什么操作作用:丢失时可以找回延迟计算:spark对RDDs的计算是他们第一次使用action操作的时候处理大数据时非常有用,可以减少数据的传输spark内部记录metada原创 2017-10-18 20:19:03 · 625 阅读 · 0 评论 -
Rdds基本操作Action
Rdds基本操作Actionaction,在RDD上计算出一个结果把结果返回给driver program或保存在文件系统,count(), savereduce()接受一个函数,作用在RDD两个类型相同的元素上返回一个新元素实现元素累加,计数,和其他类型的聚集操作val rdd=sc.parallelize(Array(1,2,3,3))rdd.collect原创 2017-10-18 19:39:07 · 337 阅读 · 0 评论 -
Rdds基本操作Transformation,逐元素,map,filter,flatMap,集合运算
Rdds基本操作Transformation转换,从之前的RDD构建一个新的RDD,map操作逐元素map,接受一个函数,应用在RDD每一个元素,并返回一个新的RDDval lines = sc.parallelize(Array("hello","spark","hello","world","!")) 测试时候使用,从已有集合中构造一个RDDlines.foreach原创 2017-10-18 19:20:50 · 397 阅读 · 0 评论 -
spark源码学习
Spark上手指南 https://dounm.github.io/2016/09/28/spark-tutorial/ spark源码官网 https://github.com/apache/spark/tree/master/mllibspark/mllib/src/main/scala/org/apache/spark/mllib/classification/Logistic原创 2018-01-13 19:00:04 · 589 阅读 · 0 评论