Spark
文章平均质量分 60
a_victory
这个作者很懒,什么都没留下…
展开
-
Spark学习笔记(一)
Spark简介基于内存的集群计算框架,用scala程序编写 近实时计算 迭代 DAG (一)spark的关键组件 1. Master 2. Worker 3. SparkContext(客户端) 4. CoarseGrainedExecutorBackend(standalone模式)(二)产生Rdd的三种API Rdd:计算单元,定义了输入输出类型以及算法 转化(tran原创 2017-03-08 17:30:28 · 453 阅读 · 0 评论 -
Spark进阶(一)
Hadoop与Spark的区别 搜狗文件分析例子 以交互的方式:val rdd = sc.textFile("/input/SogouQ.reduced")① ⽤户在00:00:00到12:00:00之间的查询数?以本地的模式:package cn.chinahadoop.scalaimport org.apache.spark.{SparkContext, SparkConf} obje原创 2017-03-15 16:31:08 · 665 阅读 · 0 评论 -
spark进阶(五)
Spark StreamingSparkStreaming框架计算流程:Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark,也就是把Spark Streaming的输入数据按照batch size(如1秒)分成一段一段的数据(Discretized Stream),每一段数据都转换成Spark中的RDD(Resilient Distributed D转载 2017-03-24 10:36:17 · 554 阅读 · 0 评论 -
Spark进阶(八)
分类+回归+聚类+协同过滤 1 分类算法 分类算法属于监督式学习,使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类。分类在数据挖掘中是一项重要的任务,目前在商业上应用最多,常见的典型应用场景有流失预测、精确营销、客户获取、个性偏好等。 MLlib 目前支持分类算法有:逻辑回归、支持向量机、朴素贝叶斯和决策树。案例:导入训练数据集,然后在训练集转载 2017-03-31 09:34:35 · 726 阅读 · 0 评论 -
Spark进阶(四)
1.Spark与MySQL或者其他的关系型数据库package scalaimport java.sql.{DriverManager, PreparedStatement, Connection} import org.apache.spark.{SparkContext, SparkConf}object RDDtoMysql {//这里按需设置数据库Blog表 case class Blo原创 2017-03-23 17:14:07 · 600 阅读 · 0 评论 -
Spark进阶(三)
客户端模式和集群模式的区别这里我们要区分一下什么是客户端模式(client mode),什么是集群模式(cluster mode)。 我们知道,当在YARN上运行Spark作业时,每个Spark executor作为一个YARN容器(container)运行。Spark可以使得多个Tasks在同一个容器(container)里面运行。 yarn-cluster和yarn-client模式的区别其转载 2017-03-23 10:14:03 · 647 阅读 · 0 评论 -
Spark进阶(七)
hive使用案例 Spark进阶(六)安装好了hive的远程模式。 Continue: http://www.sogou.com/labs/resource/q.php 中下载gz格式 //SogouQ1.txt、SogouQ2.txt、SogouQ3.txt分别是用head -n 或者tail -n 从SogouQ数据日志文件中截取//访问时间\t用户ID\t[查询词]\t该URL在返回结原创 2017-03-29 10:53:40 · 522 阅读 · 0 评论 -
Spark进阶(六)
SparkSQL 运行架构 && hive 的安装实践 TreeNode 体系Logical Plans 、Expressions 、Physical Operators 都可以使用Tree 表示 – TreeNode 具备一些scala collection 的操作能力和树遍历能力,树的修改是以替换已有节点的方式进行的。 – TreeNode ,内部带一个children: Seq[Base原创 2017-03-28 22:43:18 · 586 阅读 · 0 评论 -
Spark学习笔记(八)
GRAPHX -SPARK上的统一图表分析许多图形并行算法 协作过滤 交替最小二乘法 随机梯度下降 张量因式分解 结构化预测 Loopy Belief Propagation 最大产品线性计划 吉布斯取样 半监督ML 图形SSL CoEM 社区检测 三角计数 K-core分解 K-Truss 图表分析 PageRank 个性化P原创 2017-03-09 16:08:02 · 399 阅读 · 0 评论 -
Spark学习笔记(七)
本文目的: 正式化RDD概念 Spark应用程序的生命过程 性能调试 正式化RDD概念 科学定义RDD 是一个接口 1.分区的集合 2.对父RDD的依赖性列表 3.计算分区的函数(作为迭代器) 示例:HadoopRDD and Filtered RDD RDD Graph (DAG of tasks) 同时,每一RDD包括5个部分(1.分区2.依赖3.计算4.(可选)分割器5.首选原创 2017-03-09 14:59:13 · 381 阅读 · 0 评论 -
Spark学习笔记(六)
Json-SparkSQL JSON的流行特点:简单,重点内容紧凑,易于阅读 灵活的模式 每个JSON对象都是自描述的 Web服务之间的的数据交换格式 例如:Facebook和Twitter API 高度用于移动和Web应用程序开发 大量的JSON数据集 JSON的灵活性使得生成JSON数据集变得容易,But,JSON的灵活性使得难以分析JSON数据集。Difference: - 定义模原创 2017-03-09 11:51:03 · 321 阅读 · 0 评论 -
Spark学习笔记(五)
MLlib for SparkK-means 1.K-means (scala)// Load and parse the data. val data = sc.textFile("kmeans_data.txt") val parsedData = data.map(_.split(‘ ').map(_.toDouble)).cache() // Cluster the data i原创 2017-03-09 10:57:58 · 468 阅读 · 0 评论 -
Spark学习笔记(四)
为什么理解Spark内部?目标:查找每个“第一个字母”的不同名称的数量 给出一种代码: sc.textFile(“hdfs:/names”) .map(name => (name.charAt(0), name)) .groupByKey() .mapValues(names => names.toSet.size) .collect() 最后执原创 2017-03-09 09:50:54 · 357 阅读 · 0 评论 -
Spark学习笔记(三)
Job提交 下图展⽰示了driver program(假设在 master node 上运⾏行)如何⽣生成 job,并提交到 worker node 上执行。 当用户的 program 调用val sc = new SparkContext(sparkConf) 时,这个语句会帮助 program 启动诸多有关 driver 通信、job 执行的对象、线程、actor等,该语句确立了progr原创 2017-03-08 22:32:41 · 332 阅读 · 0 评论 -
Spark学习笔记(二)
部署图 从部署图中可以看到 整个集群分为 Master 节点和 Worker 节点,相当于 Hadoop 的 Master 和 Slave 节点。 Master节点上常驻 Master 守护进程,负责管理全部的Worker 节点。 Worker 节点上常驻 Worker 守护进程,负责与Master 节点通信并管理 executors。 Application 就是用户自己写的 Spark原创 2017-03-08 21:56:31 · 315 阅读 · 0 评论 -
Spark进阶(二)
Spark Stream将Stream数据分成小的时间片段,以类似batch批处理的方式来处理这一部分数据,兼容实时数据处理的逻辑和算法和兼容批量处理。Spark MLlibSparkSQL1.MapReduce计算过程大量的磁盘落地消耗了大量的io,降低运行效率。此时shark应运而生,同期的还有Impala和Drill。shark(在hive的基础上,把HQL翻译成Spark的RDD操作。实现基原创 2017-03-16 12:05:29 · 710 阅读 · 0 评论