《Spark MLlib 机器学习实战》1——读后总结

最新推荐文章于 2023-05-08 14:35:01 发布

weixin_34279246

最新推荐文章于 2023-05-08 14:35:01 发布

阅读量225

点赞数

文章标签：人工智能大数据数据结构与算法

RDD包含两种基本的类型：Transformation和Action。RDD的执行是延迟执行，只有Action算子才会触发任务的执行。

宽依赖和窄依赖用于切分任务，如果都是窄依赖，那么就可以最大化的利用并行。

常用操作：

MLlib中提供几种向量和矩阵的数据结构：

一般向量或者矩阵都有两个方法，dense表示密集版，sparse表示稀疏版，稀疏版是可以指定下标的。

colStats 以列统计基本数据，count个数、max最大值、mean最小值、normL1欧几里德距离、normL2曼哈顿距离、numNonzeros不为0的个数、variance标准差
chiSqTest 皮尔逊距离计算，Statistics.corr(rddx,rddy,"spearman")
corr 数据集相关系数计算，Statistics.corr(rddx,rddy)
分层抽样 data.sampleByKey(withReplacement=false,fractions,0)
假设检验 自由度、统计量、P值、卡方检验
随机数 RandomRDDs.normalRDD(sc,100)

协同过滤可以基于人也可以基于物品，不足之处在于：

他们的区别：

最小二乘，就是基于均方误差寻找最佳匹配函数的过程。在矩阵中就是把大矩阵拆分成连个小矩阵的计算。

new ALS()
rank 隐藏的因子数
iterations 迭代次数
lambda 正则项参数
implicitPref 显示反馈还是隐式反馈
alpha 拟合修正的幅度

道士下山的例子，以及随机梯度下降中 θ=θ-α*J'(θ)公式的原理。

避免过拟合，可以使用正则项——lasso回归（L1）和岭回归（L2）。关于岭回归可以参考下面两篇：

分类算法，包括逻辑回归、支持向量机SVM、贝叶斯等。

跟线性回归差不多，多了一个sigmoid函数，输出的内容也稍有变化。
另外，对于损失函数的推导也不同了，这里需要最大似然估计的知识！

基本的流程就是，确定1或者0的概率，然后推导出极大似然公式，然后取对数，求导...最终基于梯度下降，优化参数。
由于忘记最大似然估计，所以这里真是理解不上去.

求解的是划分边界的最优解，他的名字听起来像一种很高级的机器人，其实跟逻辑回归差不多，就是选取一条最优的线把数据分作两类。

这里有疑问的可以参考——逻辑回归和SVM的区别是什么？各适合解决什么问题？
https://www.zhihu.com/question/24904422?sort=created

暂时不知道它的损失函数是怎么算出来的...慢慢研究吧

明明就是计算概率，非叫这么高大上的名字。