__Spark
冥想者-定
缘起性空
展开
-
从Eclipse转移到IntelliJ IDEA一点心得
转 http://www.ituring.com.cn/article/37792本人使用IntelliJ IDEA其实并不太久,用了这段时间以后,觉得的确很是好用。刚刚从Eclipse转过来的很多人开始可能不适应,我就把使用过程中的一些经验和常用功能分享下,当然在看这篇之前推荐你先看完IntelliJ IDEA 的 20 个代码自动完成的特性,这篇文章对自动完成的特性介绍转载 2015-04-26 12:01:56 · 922 阅读 · 0 评论 -
[Java教程]RDD专题
RDD是什么东西?在Spark中有什么作用?如何使用? 1、RDD是什么(1)为什么会产生RDD?传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方法 (2)RDD的具体描述RDD(弹性数据集)是Spark提供的最重要的抽象的概念,它是一种有容转载 2015-08-18 17:19:29 · 533 阅读 · 0 评论 -
Spark 学习入门教程
转载请注明作者,谢谢支持!http://blog.csdn.net/wankunde/article/details/41675079一、环境准备测试环境使用的cdh提供的quickstart vmhadoop版本:2.5.0-cdh5.2.0spark版本:1.1.0二、Hello Spark将/usr/lib/spark/exampl转载 2015-08-18 19:57:20 · 630 阅读 · 0 评论 -
Spark RDD API详解(一) Map和Reduce
https://www.zybuluo.com/jewes/note/35032RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要转载 2015-08-19 13:48:12 · 419 阅读 · 0 评论 -
RDD、DataFrame和DataSet的区别
RDD、DataFrame和DataSet的区别字数1561 阅读2277 评论9 喜欢10RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。RDD和DataFrameRDD-DataFrame上图直观地体现了DataFrame和RDD的区别。左侧的RDD[Person]虽然以P转载 2016-07-17 09:37:56 · 939 阅读 · 0 评论 -
spark-submit工具参数说明
spark-submit工具参数说明执行时需要传入的参数说明Usage: spark-submit [options] [app options]参数名称含义--master MASTER_URL可以是spark://host:port, mesos://host:port, yarn, yarn-cluster,转载 2016-07-17 21:43:54 · 583 阅读 · 0 评论 -
选择 Parquet for Spark SQL 的 5 大原因
http://www.ibm.com/developerworks/cn/analytics/blog/5-reasons-to-choose-parquet-for-spark-sql/index.html选择 Parquet for Spark SQL 的 5 大原因列式存储 (columnar storage) 在处理大数据的时候可以有效地节省时间和空间。例如转载 2016-10-23 22:52:50 · 1187 阅读 · 0 评论 -
Spark面对OOM问题的解决方法及优化总结
转载请保持完整性并注明来源链接: http://blog.csdn.net/yhb315279058/article/details/51035631 Spark中的OOM问题不外乎以下两种情况map执行中内存溢出shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,mapPatitions等。shuffle后转载 2016-11-04 12:10:06 · 642 阅读 · 0 评论 -
Spark DataFrame小试牛刀
三月中旬,Spark发布了最新的1.3.0版本,其中最重要的变化,便是DataFrame这个API的推出。DataFrame让Spark具备了处理大规模结构化数据的能力,在比原有的RDD转化方式易用的前提下,计算性能更还快了两倍。这一个小小的API,隐含着Spark希望大一统「大数据江湖」的野心和决心。DataFrame像是一条联结所有主流数据源并自动转化为可并行处理格式的水渠,通过它Spark能转载 2016-10-21 10:44:07 · 287 阅读 · 0 评论 -
Hadoop&Spark解决二次排序
bin/spark-shell --master yarn-client --executor-memory 1g --num-executors 2 --queue iteblog --executor-cores 1Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `转载 2016-11-16 11:11:08 · 356 阅读 · 0 评论 -
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式
Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现转载 2016-12-08 10:31:41 · 406 阅读 · 0 评论 -
在Apache Spark上跑Logistic Regression算法
发表于2015-07-24 10:30| 2604次阅读| 来源TechNobium| 9 条评论| 作者Leonard Giura大数据ApacheSpark摘要:在本文中,你将看到Apache Spark可以用于机器学习的任务,如logistic regression。虽然这只是非分布式的单机环境的Scala shell demo,但是Spark的真正强大在于分布式下的转载 2015-08-18 14:49:55 · 1063 阅读 · 0 评论 -
Spark MLlib中的协同过滤
本文主要通过Spark官方的例子理解ALS协同过滤算法的原理和编码过程,然后通过对电影进行推荐来熟悉一个完整的推荐过程。协同过滤协同过滤常被应用于推荐系统,旨在补充用户-商品关联矩阵中所缺失的部分。MLlib当前支持基于模型的协同过滤,其中用户和商品通过一小组隐语义因子进行表达,并且这些因子也用于预测缺失的元素。Spark MLlib实现了交替最小二乘法(ALS) 来学习这些隐转载 2015-08-17 09:17:32 · 931 阅读 · 0 评论 -
王家林 构建spark集群
http://book.51cto.com/art/201408/448416.htm转载 2015-04-25 19:10:23 · 524 阅读 · 0 评论 -
Spark 中 map 与 flatMap 的区别
通过一个实验来看Spark 中 map 与 flatMap 的区别。步骤一:将测试数据放到hdfs上面hadoopdfs -put data1/test1.txt /tmp/test1.txt该测试数据有两行文本:步骤二:在Spark中创建一个RDD来读取hdfs文件/tmp/test1.txt转载 2015-05-10 15:28:07 · 462 阅读 · 0 评论 -
RDD 宽依赖 , 和窄依赖
RDD 宽依赖------ 一个子Rdd 依赖很多父RDD 也就是说这个 子RDD 是由很多父RDD 来组成的,所以, 他不好做优化,一般是需要做shuffle的操作, 这个shuffle的操作,很浪费时间,希望spark也做了优化把。。嗯嗯, RDD 窄依赖------ 一个子的RDD 只有一个父亲,不是这么说,应该说是一个父亲 RDD 有且只传递给一个子RDD, 对吧,嗯转载 2015-05-10 16:28:14 · 1985 阅读 · 0 评论 -
spark学习线路
1、 RDD的各种方法需要试验一次2、spark自带的 excemple需要看一次3、scala的快学---- 元祖操作转载 2015-05-10 16:10:52 · 439 阅读 · 0 评论 -
sparkSQL1.1入门之八:sparkSQL之综合应用
转载地址:http://blog.csdn.net/book_mmicky/article/details/39202093 Spark之所以万人瞩目,除了内存计算,还有其ALL-IN-ONE的特性,实现了One stack rule them all。下面简单模拟了几个综合应用场景,不仅使用了sparkSQL,还使用了其他Spark组件:店铺分类,根据销售额转载 2015-05-06 15:46:56 · 379 阅读 · 0 评论 -
Spark1.0.0 多语言编程之Scala实现
Scala作为Spark的原生语言,在开发上Spark应用程序上最大的优势是支持所有的功能、容易追踪bug等。试过几种开发工具,笔者还是觉得IntelliJ IDEA开发Scala程序比较方便,当然开发Spark 应用程序也一样。 笔者的Spark开发环境参见Spark1.0.0 开发环境快速搭建,本篇是对Spark1.0.0 多语言编程的需求进行scala实现。转载 2015-05-07 10:04:00 · 392 阅读 · 0 评论 -
关于SPARK_WORKER_MEMORY和SPARK_MEM
在spark中最容易混淆的是各种内存关系。本篇讲述一下SPARK_WORKER_MEMORY和SPARK_MEM。SPARK_WORKER_MEMORY是计算节点worker所能支配的内存,各个节点可以根据实际物理内存的大小,通过配置conf/spark-env.sh来分配内存给该节点的worker进程使用。在spark standalone集群中,如果各节点的物理配置不一样,co转载 2015-05-07 18:35:52 · 659 阅读 · 0 评论 -
RDD
http://blog.csdn.net/wangmuming/article/details/37959963RDD是什么东西?在Spark中有什么作用?如何使用? 1、RDD是什么(1)为什么会产生RDD?传统的MapReduce虽然具有自动容错、平衡负载和可拓展性的优点,但是其最大缺点是采用非循环式的数据流模型,使得在迭代计算式要进行大量的磁盘IO操作。RDD正是解决这一缺点的抽象方转载 2015-08-25 11:23:27 · 407 阅读 · 0 评论 -
理解Spark的核心RDD
http://www.infoq.com/cn/articles/spark-core-rdd/与许多专有的大数据处理平台不同,Spark建立在统一抽象的RDD之上,使得它可以以基本一致的方式应对不同的大数据处理场景,包括MapReduce,Streaming,SQL,Machine Learning以及Graph等。这即Matei Zaharia所谓的“设计一个通转载 2015-08-25 11:22:21 · 474 阅读 · 0 评论 -
spark向量、矩阵类型
先来个普通的数组:scala> var arr=Array(1.0,2,3,4)arr: Array[Double] = Array(1.0, 2.0, 3.0, 4.0)12可以将它转换成一个Vector:scala> import org.apache.spark.mllib.linalg._scala> var vec=Vectors.dense(arr)vec: or转载 2015-08-13 13:23:34 · 486 阅读 · 0 评论 -
(转)Spark排错与优化
http://blog.csdn.net/lsshlsw/article/details/49155087目录(?)[+]一. 运维1. Master挂掉,standby重启也失效Master默认使用512M内存,当集群中运行的任务特别多时,就会挂掉,原因是master会读取每个task的event log日志去生成Spark ui,内存不足转载 2017-04-05 19:24:52 · 1180 阅读 · 0 评论