![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
Fortuna_i
眼里藏着小星星,生活才能亮晶晶。
展开
-
运行Spark常见问题处理方法(持续更新中......)
1.MaxResultSize问题首先,出现这个错误的时候Spark会产生如下错误信息:org.apache.spark.SparkException: Job aborted due to stage failure: Total size of serialized results of 77 tasks (1028.5 MB) is bigger than spark.driver....原创 2018-06-11 11:38:24 · 3959 阅读 · 2 评论 -
1.7优化(optimization)
1.7 优化(optimization)1.7.1 梯度下降(Gradient Descent)解决回归算法中一些求拟合线性方程最优解问题,即最小化损失函数J(θ) = ( h(x) - y )^2的问题,有两种求解方法:最小二乘法和梯度下降法。而通过矩阵求解最小二乘公式中:θ = ( XTX)-1XTy→要求X是列满秩的,而且求矩阵的逆比较慢,所以一般采用梯度下降法。算法目标是最小化...原创 2019-02-14 20:33:00 · 1331 阅读 · 0 评论 -
1.8推荐(recommendation)
1.8 推荐(recommendation)(协同过滤推荐算法)协同过滤是一种借助"集体计算"的途径。它利用大量已有的用户偏好来估计用户对其未接触过的物品的喜好程度。其内在思想是相似度的定义。在基于用户的方法的中,如果两个用户表现出相似的偏好(即对相同物品的偏好大体相同),那就认为他们的兴趣类似。要对他们中的一个用户推荐一个未知物品,便可选取若干与其类似的用户并根据他们的喜好计算出对各个物...原创 2019-02-14 20:34:19 · 772 阅读 · 0 评论 -
1.9统计(stat)
1.9 统计(stat)1.9.1 核密度估计(KDE(Kernel Density Estimation))由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们嘉定数据分布符合某种特定的性态,如线性、指数性态等,然后在目标函数族中寻找特定的解,即确定回归模...原创 2019-02-14 20:38:07 · 1786 阅读 · 0 评论 -
1.10树(tree)
1.10 树(tree)1.10.1 决策树(Decision Tree)首先,Mllib认为,决策树时随机森林(Random Forest)的一种特殊情况,也就是只有一棵树并且不采取特征抽样的随机森林。所以在训练决策树的时候,其实是训练随机森林,最后从随机森林中抽出一棵树。决策树时一个数结构(可以是二叉树或非二叉树),由节点和有向边组成。决策树学习的本质是从训练数据集上归纳出一组分类...原创 2019-02-14 20:45:17 · 701 阅读 · 0 评论 -
2.1组件(ml)
2.1 组件(ml)2.1.1 管道化(Pipeline)虽然 MLlib 已经足够简单实用,但如果目标数据集结构复杂,需要多次处理,或是在学习过程中,要使用多个转化器 (Transformer) 和预测器 (Estimator),这种情况下使用 MLlib 将会让程序结构极其复杂。所以,一个可用于构建复杂机器学习工作流应用的新库已经出现了,它就是 Spark 1.2 版本之后引入的 ML...原创 2019-02-15 09:14:26 · 641 阅读 · 0 评论 -
2.2分类(classification)
2.2 分类(classification)2.2.1 多层感知器分类器(MLPC(Multilayer Perceptron Classifier))多层感知器分类器(MLPC)是基于前馈人工神经网络(ANN)的分类器。 MLPC由多个节点层组成。 每个层完全连接到网络中的下一层。 输入层中的节点表示输入数据。 所有其他节点,通过输入与节点的权重w和偏置b的线性组合,并应用激活函数,将输...原创 2019-02-15 09:14:35 · 1433 阅读 · 0 评论 -
2.3优化(optim)
2.3 优化(optim)2.3.1&2.3.2 最小二乘法(Least Squares)加权最小二乘法(WLS(Weighted Least Squares)):一般最小二乘法将时间序列中的各项数据的重要性同等看待,而事实上时间序列各项数据对未来的影响作用应是不同的。一般来说,近期数据比起远期数据对未来的影响更大。因此比较合理的方法就是使用加权的方法,对近期数据赋以较大的权数...原创 2019-02-15 09:14:46 · 845 阅读 · 0 评论 -
2.4回归(regression)
2.4 回归(regression)2.4.1 @生存分析(AFT Survival Regression)在Spark.ml中,实现了加速失效时间(AFT(Accelerate Failure Time))模型,这是一个用于检查数据的参数生存回归模型。它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型。不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为买个实...原创 2019-02-15 09:15:01 · 872 阅读 · 0 评论 -
2.5调优(tuning)
2.5 调优(tuning)2.5.1&2.5.2 模型选择(超参数调整)与调优分类器模型通常在特定的数据上进行训练,由于所得模型可能存在过拟合的现象。因此,模型训练完成之后通常需要进行检验,以验证分类模型在未知数据集上的预测能力,即我们通常所说的“模型泛化”能力。交叉检验(Cross Validation):交叉验证是用来验证分类器的性能的一种统计分析方法,基本思想是把在...原创 2019-02-15 09:15:14 · 790 阅读 · 0 评论 -
1.1分类(classification)
1.1 分类(classification)1.1.1线性回归(Linear Regression)线性回归是利用被称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间的关系进行建模的一种回归分析。这种函数式一个或多个被称为回归系数的模型参数的线性组合。在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析被称为一元回归分析。如果回归分析中包...原创 2019-02-14 09:15:58 · 2543 阅读 · 0 评论 -
1.2回归(regression)
1.2 回归(regression)回归问题如何寻找使损失函数最小化的最优解,假设函数为线性回归模型函数,整体思想如下:针对最小二乘法来说,可以使用梯度下降法算法实现:而随机梯度下降算法只不过是在梯度下降法(又称批量梯度下降法)的基础上做出了改进,选取的数据非全部数据,而是抽样选择部分数据对整体数据进行“以偏概全”正则化:解决这类问题,可以采用收缩发(s...原创 2019-02-14 09:24:40 · 1019 阅读 · 0 评论 -
1.3聚类(clustering)
1.3 聚类(clustering)1.3.1 K均值(K Means)KMeans算法的基本思想是初始随机给定K个簇中心,按照最近邻原则把待分类样本定分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。KMeans聚类算法主要分为3个步骤:为待聚类的点寻找聚类中心。 计算每个点到聚类中心的距离,将每个点聚类到离该点最近的...原创 2019-02-14 09:32:06 · 1774 阅读 · 0 评论 -
1.4评估(evaluation)
1.4 评估(evaluation)1.4.1 曲线下面积(AUC(Area Under Curve))AUC是指ROC曲线下的面积,而ROC计算需要了解混淆矩阵。混淆矩阵:如:预测肿瘤是否为良性。 TP表示预测为良性,而实际也是良性的样例数; FN表示预测为恶性,而实际是良性的样例数;FP表示预测为良性,而实际是恶性的样例数; TN表示预测为恶性,而实际也是恶性的样例数;这...原创 2019-02-14 09:35:38 · 842 阅读 · 0 评论 -
1.6关联规则(fpm)
1.6 关联规则(fpm)1.6.1 关联规则(FPGrowth(Frequent Pattern Growth))关联规则挖掘的一个典型例子是购物篮分析。关联规则的研究有助于发现交易数据库中不同商品(项)之间的关系,找出顾客购买行为模式,如{啤酒,尿布}。首先弄清楚几个概念:项(item):即商品;项集:若干项的集合。 关联规则:关联规则用于表示数据内隐含的关联性。一般记X为先...原创 2019-02-14 20:27:02 · 964 阅读 · 0 评论 -
1.5特征(feature)
1.5 特征(feature)特征中有三种算法:ChiSqSelector、VectorSlicer和RFormula为特征选择方法;有三种方法:CountVectorizer、TF-IDF和Word2Vec组成三种文本特征抽取方法;其余方法为特征变换。特征变换又分5个类:自然语言相关特征转换,包括:Tokenizer、Stop Words Remover、n-gram。 连...原创 2019-02-14 20:25:07 · 5177 阅读 · 0 评论 -
spark mllib算法思想总结
Spark MLlib全部算法总结(2.1.0版)说明:总结算法为Spark2.1.0中Mllib中源码算法,参照网络链接及书籍整理而成。算法按计算过程分两大类:监督学习(Supervised Learning)和无监督学习(Unsupervised Learning)。监督学习:指给定算法的一个数据集,其中包含了“正确答案”。算法的目的就是给出更多的“正确答案”。无监督学习:指给...原创 2019-02-15 09:27:07 · 2710 阅读 · 1 评论 -
关于Spark实际操作的一些实用干货(持续更新中.....)
1.有关local模式 曾经在国外网站上看到一篇帖子,觉着很受用,拿来分享。 说Spark的local模式,就是指在本机上运行的本机模式,所以,有关于你设置的executor.memory以及driver.memory的,并不会影响Spark本身内存设置问题。经本人测试之后发现,local模式下设置这两个参数完全没有作用。2.spark.memory.fraction与sp...原创 2018-06-12 17:29:45 · 1905 阅读 · 0 评论 -
Spark内存设置
1.常规设置 在我另一篇文章中也有提到(Spark运行常见问题),即常规设置: (假设物理机内存大小为32G) -Xms 物理内存的1/64 -Xms512m -Xmx 物理内存的1/4 -Xmx8G -XX:PermSize 物理内存的1/64 -XX:PermS...原创 2018-06-19 12:06:41 · 6333 阅读 · 0 评论 -
Spark RDD collect与collectPartitions
确切的应该说是RDD collect^_^1.collect的作用 Spark内有collect方法,是Action操作里边的一个算子,这个方法可以将RDD类型的数据转化为数组,你可以随时val arr = data.collect(),将RDD类型数据转化为数组来存放并参与后续运算。2.已知的弊端 首先,从时间上来讲,前边已经说过了,collect是Actio...原创 2018-06-29 09:10:02 · 7876 阅读 · 4 评论 -
自制Hadoop伪分布、集群安装详细过程(vmware)
Hadoop单机版、伪分布、集群安装教程推荐链接:http://dblab.xmu.edu.cn/blog/page/2/?s=Hadoop注:vmware6.5及以上,执行命令基本相同,除了编辑文件时“vi”指令替换为“vim”指令一、下载安装所需文件 1.vmware10中文版 2.centos6.4 3.jdk1.8-L...原创 2018-07-20 16:44:16 · 2231 阅读 · 4 评论 -
Spark32个常用算子总结
官方文档上列举共有32种常见算子,包括Transformation的20种操作和Action的12种操作。(注:以下截图为windows下运行结果)Transformation:1.mapmap的输入变换函数应用于RDD中所有元素,而mapPartitions应用于所有分区。区别于mapPartitions主要在于调用粒度不同。如parallelize(1 to 10, 3),ma...原创 2018-08-09 14:37:44 · 43502 阅读 · 8 评论 -
Spark distinct中numTasks含义
Spark中Transformation有个distinct([numTasks])算子用于返回一个在源数据集去重之后的新数据集,即去重。可一直没弄明白官方文档上提到的distinct方法中参数[numTasks]的具体含义,于是做了一下测试:依次对numTasks值增大测试:numTasks=1numTasks=2numTasks=3numTask...原创 2018-08-08 14:24:30 · 2980 阅读 · 2 评论 -
自制Spark安装详细过程(含Scala)
推荐spark安装链接http://blog.csdn.net/weixin_36394852/article/details/76030317一、scala下载安装与配置 1.下载 cd /usr/scala //若不存在则新建 wget https://downloads.lightb...原创 2018-09-18 09:12:42 · 4009 阅读 · 1 评论 -
Spark各版本源代码及安装包下载方法
插句题外话:好久没上博客了,最近没搞项目,回学校写论文了,因为论文需要所以得下载spark2.1.0的源码,宿舍网是校外网,访问外网的时候容易死翘翘。于是乎,我就在百度上搜了一下,结果,哇!就这么点儿东西,有人要5C币,有人要10C币,还有更多的。人,有时候就会忽然中二症犯了,瞬间感觉义愤填膺,于是,就写了这篇博文,告诉大家如何免费下载各版本的Spark源码及安装包,顺便也奉告一下那...原创 2019-09-29 12:22:05 · 7757 阅读 · 8 评论