spark
文章平均质量分 92
sam_fly
这个作者很懒,什么都没留下…
展开
-
spark高级数据分析系列之第二章用 Scala 和 Spark 进行数据分析
2.1数据科学家的Scalaspark是用scala语言编写的,使用scala语言进行大数据开发的好处有1、性能开销小减少不同环境下传递代码和数据的错误和性能开销2、能用上最新的版本和最好的功能Spark的新功能毫无疑问是首先适配scala语言,但使用spark的所有功能可不是那么容易3、有助于了解spark的原理2.2小试牛原创 2017-07-12 16:40:24 · 2989 阅读 · 0 评论 -
Spark快速大数据分析之第二章Spark 下载与入门
2.1Spark下载与安装JDK的安装JDK的版本最好是1.8以上,使用的是ubuntu系统安装源 sudo add-apt-repository ppa:webupd8team/javasudo apt-get update安装jdksudo apt-get install oracle-java8-installersudo upd原创 2017-07-14 15:05:58 · 778 阅读 · 0 评论 -
spark高级数据分析系列之第三章音乐推荐和 Audioscrobbler 数据集
3.1数据集和整体思路数据集本章实现的是歌曲推荐,使用的是ALS算法,ALS是spark.mllib中唯一的推荐算法,因为只有ALS算法可以进行并行运算。使用数据集在这里,里面包含该三个文件:表一:user_artist_data.txt 包含该的是(用户ID、歌曲ID、用户听的次数) 表二:artist_data.txt 这个文件包含的是(歌曲ID,歌曲名字)表三:artist_ali...原创 2017-07-14 08:47:21 · 3419 阅读 · 1 评论 -
Spark运行架构
原文网址:http://www.cnblogs.com/shishanyuan/p/4721326.html1.术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码;lDriver:Spark中的Driver即运行...转载 2017-07-14 16:30:23 · 351 阅读 · 0 评论 -
Spark快速大数据分析之第三章RDD编程
RDD基础RDD包含两种操作:转化操作:由一个 RDD 生成一个新的 RDD,采取惰性求值策略:不会马上进行运算,直到下一个行动操作才会运算行动操作:对 RDD 计算出一个结果,并把结果返回到驱动器程序中,或把结果存储到外部存储系统(如 HDFS)中惰性求值虽然你可以在任何时候定义新的 RDD,但 Spark 只会惰性计算这些 RDD。它们只有第一次在一个行动操作中原创 2017-07-15 09:05:49 · 596 阅读 · 0 评论 -
Spark快速大数据分析系列之第四章键值对操作
动机键值对形式的RDD提供了新的强大的操作接口键值对形式的RDD具有一个重要特性:分区。一些情况下可以显著提升性能创建Pair RDD读取外部数据时:如果外部数据本身是键值对形式的,读取回来的RDD也是键值对形式个普通的 RDD 转为 pair RDD 时,可以使用map()函数val pairs = lines.map(x => (x.split(" ")(0), x))原创 2017-07-15 10:58:36 · 605 阅读 · 0 评论 -
Spark快速大数据分析系列值第六章Spark编程进阶
共享变量累加器广播变量累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法例子:计算空行数val sc = new SparkContext(...)val file = sc.textFile("file.txt")val blankLines = sc.accumulator(0) // 创建Accumulat原创 2017-07-15 16:14:55 · 865 阅读 · 0 评论 -
spark submit参数及调试
原文:http://www.cnblogs.com/haoyy/p/6893943.htmlspark submit参数介绍你可以通过spark-submit --help或者spark-shell --help来查看这些参数。使用格式: ./bin/spark-submit \ --class <main-class> \ --master <master-url> ...转载 2018-03-15 13:27:33 · 2083 阅读 · 0 评论