spark
别和硬盘比记忆
这个作者很懒,什么都没留下…
展开
-
spark运行基本流程
一、基本流程 1.构建Spark Application的运行环境(启动SparkContext),SparkContext向资源管理器(可以是Standalone、Mesos或YARN)注册并申请运行Executor资源; 2.资源管理器分配Executor资源并启动StandaloneExecutorBackend,Executor运行情况将随着心跳发送到资源管理器上; 3.SparkCont...原创 2019-03-10 15:58:51 · 4704 阅读 · 0 评论 -
聚类分析
一、k-mean 1.随机选取k个点作为初始聚类中心 2.计算各个点到各个聚类中心的距离,将点分配给到聚类中心距离最小的类中 3.求出均值作为各个类的聚类中心 4.循环2、3步骤直到聚类中心不再变化 二、k-mean++ 1、随机选择一个点作为聚类中心 2、计算各个点到聚类中心的距离 3、选择距离最大的点作为一个新的聚类中心 4、直到选出k个聚类中心 ...原创 2019-04-09 16:32:28 · 178 阅读 · 0 评论 -
协同过滤
一、形式 1、基于用户的协同过滤 你喜欢的东西跟你相似的人也有肯能喜欢 例:用户A喜欢商品a、b、c 用户B喜欢a、b、c、d 则可以将d推荐给A 2、基于商品的协同过滤 跟你喜欢的物品类似的物品你也有可能喜欢 例:用户A喜欢商品a,若商品b和商品a比较类似,则可以将b推荐给A ...原创 2019-04-08 14:49:15 · 125 阅读 · 0 评论 -
spark-submit参数
参数名 参数说明 –master 如spark://host:port, mesos://host:port, yarn, yarn-cluster,yarn-client, local –deploy-mode Client或者master,默认是client –class 应用程序的主类 –name 应用程序的名称 –jars 逗号分隔的本地jar包,包含在d...原创 2019-04-06 10:43:18 · 137 阅读 · 0 评论 -
spark运行过程
1、构建spark application运行环境,创建sparkContext对象,SparkContext对象向资源管理器申请运行excuter的资源; 2、资源管理器分配运行excuter的资源,并且excuter与资源管理器保持心跳。 3、sparkContext构建DAG图,通过DAGScheduler进行Stage划分,并且将stage发送给TaskScheduler 4、TaskSc...原创 2019-03-27 18:56:15 · 144 阅读 · 0 评论 -
rdd
rdd 弹性分布式数据集 是一个不可变、可分区、可并行计算的集合 可以缓存在内存中并进行重用,提高效率 rdd之间可以进行转换,可以储存任意数据类型 五大特征 RDD是一个由多个partition组成的的集合; RDD的每个partition上面都会有函数; RDD会记录它的依赖; 如果是KV类型的rdd,则可以纯涤一个自定义的partitioner进行重分区 最优的位置去计算,也就是数据的本地性...原创 2019-03-27 17:39:35 · 658 阅读 · 0 评论 -
回归分析
回归分析: 回归分析就是将一系列的影响因素 x 和结果 y 进行拟合得到一个方程,然后用这个方程对同类事件进行预测。 一、线性回归(预测算法) 用来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,其表达形式为y = w’x+e,e为误差服从均值为0的正态分布。 因变量为连续值。 1、只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。(一...原创 2019-03-20 10:47:16 · 991 阅读 · 0 评论 -
spark优化
一、算子方面: 高性能的算子 1、使用mapPartitions替代map。 mapPartitions:处理一个partition所有的数据,可能会出现OOM; 2、使用foreachPartitions替代foreach; 3、 使用repartitionAndSortWithinPartitions替代repartition与sort类操作; 4、 使用filter之后进行coalesce操...原创 2019-03-10 19:51:01 · 120 阅读 · 0 评论 -
SparkStreaming 从 Kafka中接收数据的两种方式与调优
一、Receiver方式 1.调用高阶API; 2.通过Receiver接收器来读取数据,被动接收数据; 3.接收到的数据在executor内存中; 4.Spark的分区和Kafka分区不相关,加大topic分区无法提高spark并行度; 5.数据可能丢失。1.2以后通过checkpoint和配置spark.streaming.receiver.writeAheadLog.enable防止数据丢失...原创 2019-03-10 16:49:17 · 708 阅读 · 1 评论