ml
文章平均质量分 60
tiansheng1225
这个作者很懒,什么都没留下…
展开
-
[Spark2.0]ML piplines管道模式
在本部分,我们将介绍ML Pipline的概念。ML Pipline提供了一整套建立在DataFrame上的高级API,它能帮助用户创建和调优实际机器学习管道。Pipline的主要思想 Mllib标准化了机器学习算法的API,使得将多个算法融合到一个简单的管道或工作流更为简单。本部分将覆盖Pipline API的关键思想,这里的pipline概念转载 2018-01-27 10:39:59 · 202 阅读 · 0 评论 -
The Problem of Overfitting
过拟合表现:在训练数据上的误差非常小,而在测试数据上误差反而增大。其原因一般是模型过于复杂,过分得去拟合数据的噪声和outliers. 正则化则是对模型参数添加先验,使得模型复杂度较小,对于噪声以及outliers的输入扰动相对较小。 过拟合原因:训练样本数据量过小详细参考文档:https://www.zhihu.com/question/20700829转载 2018-01-27 10:48:32 · 239 阅读 · 0 评论 -
Spark2 Linear Regression线性回归案例(参数调优)
回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。 数学上,ElasticNet被定义为L1和L2正则化项的凸组合:通过适当设置α,ElasticNet包含L1和L2正则化作为特殊情况。例如,如果用参数α设置为1来训练线性回归模型,则其等价于Lasso模型。另一方面,如果α被设置为0,则训练的模型简化为ri转载 2018-01-27 11:08:40 · 5281 阅读 · 0 评论 -
spark ML 中 VectorIndexer, StringIndexer等用法
VectorIndexer主要作用:提高决策树或随机森林等ML方法的分类效果。VectorIndexer是对数据集特征向量中的类别(离散值)特征(index categorical features categorical features )进行编号。它能够自动判断那些特征是离散值型的特征,并对他们进行编号,具体做法是通过设置一个maxCategories,特征向量中某一个特征不转载 2018-01-29 17:22:18 · 2345 阅读 · 0 评论