spark
文章平均质量分 81
qq_23617681
这个作者很懒,什么都没留下…
展开
-
spark shell编程基础知识
shell编程提供对spark api最简单,也是最直接的调用。支持两种脚本语言:scala、python。启动shell编程: ./bin/spark-shell.sh执行顺序是:spark-shell-->spark-submit-->spark-classspark-shell启动时,最好启动hadoop.最好启动master、slaves,这样能通过http://loc原创 2016-05-10 17:33:09 · 783 阅读 · 0 评论 -
spark基础知识二
偶然看到spark的一篇概述PPT,来自中国移动,总结的很清晰全面。这里对其主要内容小结,加深理解。spark历史:2009年诞生于伯克利大学。2014年成为apache顶级项目。spark成为最为活跃的大数据处理平台和框架。特点:架构先进:采用简洁的scala语言,akka作为通信框架,DAG作为执行引擎减少计算中间结果写入到HDFS,统一抽象的RDD。高原创 2016-05-15 12:32:48 · 396 阅读 · 0 评论 -
spark中协同过滤算法分析
spark的MLlib是其机器学习算法库。其中协同过滤算法叫做ALS,交替最小二乘法。下面对算法思路和执行代码进行分析。算法思想:1、对于用户、商品、评分构成的打分矩阵。一般来说是稀疏的矩阵,因为用户没有对所有商品打分,很多地方评分是未知数。2、我们的目的是要将这个打分矩阵填满,从而预测用户对某个商品的打分,继而进行推荐。3、计算这个原始矩阵的计算量是非常巨大的,而原创 2016-05-15 00:27:55 · 1718 阅读 · 0 评论 -
spark的DataFrame介绍及使用示例分析
DataFrame是spark推荐的统一结构化数据接口。基于DataFrame能实现快速的结构化数据分析。它让spark具备了大规模结构化数据的处理能力。暗示了spark希望一统大数据处理的决心和野心。spark通过DataFrame希望满足所有数据处理工程师的需求,包括R工程师、SQL商业分析师。DataFrame处理的基本步骤是:1、创建sqlContext,它原创 2016-05-14 20:10:00 · 4742 阅读 · 0 评论 -
spark程序解析——WordCount
本篇解析spark的词频统计源程序代码。java源码如下:package sparkTest;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java.Jav原创 2016-05-14 17:18:46 · 1443 阅读 · 0 评论 -
spark程序——统计包含字符a或者b的行数
本篇分析一个spark例子程序。程序实现的功能是:分别统计包含字符a、b的行数。java源码如下:package sparkTest;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaS原创 2016-05-14 11:54:30 · 4445 阅读 · 0 评论 -
sparkPi源码解析
在ubuntu的eclipse系统上,基于maven建立了第一个spark程序sparkPi,顺利执行正确结果。现在对sparkPi源码进行解析,借此熟悉spark java API,为后面基于java的spark编程做准备。sparkPi源码如下:package sparkTest;/* * Licensed to the Apache Software Foundat原创 2016-05-14 00:18:06 · 1048 阅读 · 0 评论 -
基于maven创建spark工程、调试并运行
建立spark工程有两种方式:java工程、maven工程。由于maven管理jar包很方便,本篇基于maven构建spark工程。spark支持四种语言:scala、java、python、R。其中scala是基于java的语言,必须有JDK支持。同时也是spark源码语言,官方API文档对scala的支持是最好的。如果能选择scala语言作为spark程序的开发,是原创 2016-05-12 12:13:04 · 2184 阅读 · 0 评论 -
spark第一个简单示例的源码解读
本篇解读spark官方文档上的第一个shell示例程序。解读spark程序必须具备scala基础知识,关于scala基础参考文章1.完整代码如下:scala> val textFile = sc.textFile("file:///usr/local/spark/README.md")textFile: org.apache.spark.rdd.RDD[String] =原创 2016-05-10 23:58:27 · 941 阅读 · 0 评论 -
spark基础知识
预备知识1、如果要跑spark例子程序,最好配置环境变量时,加入如下内容。省区频繁输入调用jar包。注意不同的spark版本,对应路径不同。2、修改配置文件(这里针对standalone模式)host文件:Master(Master):127.0.0.1(名称与IP对应关系)slave1(Worker):127.0.0.1(名称与IP对应关系)slave2(Wo原创 2016-05-08 23:57:49 · 907 阅读 · 0 评论