![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
CWS_chen
之前都是,把学习记录、开发经验、踩过的坑,都保存到云盘里了。
展开
-
SparkStreaming之读取Kafka数据
GBDT是一种集成学习算法,却和传统的Adaboost有很大的不同。回顾下Adaboost,它是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同时迭代思路和Adaboost也有所不同(备注:Adaboost我会再新开日记)。CART决策树既可以用于分类也可以用于回归,决策树分为分类树和...原创 2018-01-12 16:17:31 · 6294 阅读 · 0 评论 -
Breeze库API总结(Spark线性代数库)
Spark Mllib底层的向量、矩阵运算使用了Breeze库,Breeze库提供了Vector/Matrix的实现以及相应计算的接口(Linalg)。但是在MLlib里面同时也提供了Vector和Linalg等的实现。在使用Breeze库时,需要导入相关包:Import breeze.linalg._Import breeze.numeric._Breeze创建函数: 操作...转载 2018-04-03 16:32:56 · 2587 阅读 · 0 评论 -
Spark作业基本运行原理解析
1、基本原理Spark作业的运行基本原理如下图所示:我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。提交作业的节点称为Master节点,Driver进程就是开始执行你Spark程序的那个Main函数(Driver进程不一定在Master节点上)。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也...转载 2017-12-31 18:22:25 · 7974 阅读 · 0 评论 -
Spark 原理详解 整理
Hadoop缺陷:基于磁盘,无论是MapReduce还是YARN都是将数据从磁盘中加载出来,经过DAG,然后重新写回到磁盘中计算过程的中间数据又需要写入到HDFS的临时文件这些都使得Hadoop在大数据运算上表现太“慢”,Spark应运而生。Spark的架构设计:ClusterManager负责分配资源,有点像YARN中ResourceManager那个角色,大管家握有所有...原创 2017-06-14 20:41:43 · 3997 阅读 · 0 评论 -
spark rdd详解 整理
spark简介Spark是整个BDAS的核心组件,是一个大数据分布式编程框架,不仅实现了MapReduce的算子map 函数和reduce函数及计算模型,还提供更为丰富的算子,如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。Spark将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度、RPC、序列化和压缩,并为运行在其上的上层组件提供A...原创 2018-01-24 17:49:27 · 3475 阅读 · 0 评论 -
Scala 伴生对象的实现原理
前言:这个面试出镜率很高,虽然咱们都会用,可是你有考虑过scala为什么这么设计么?你有考虑过大名鼎鼎的java23种设计模型,scala是怎么设计应用的么?本文主要分析伴生类和伴生对象的实现方法。所谓伴生对象, 也是一个Scala中的单例对象, 使用object关键字修饰。 除此之外, 还有一个使用class关键字定义的同名类, 这个类和单例对象存在于同一个文件中, 这个类就叫做这个单例对象...原创 2018-01-17 10:40:39 · 1685 阅读 · 0 评论