机器学习
jionlp数据分析
JioNLP 开源软件作者,数据分析专家
展开
-
【机器学习】支持向量机SVM - 对SVM与核函数的理解及sklearn参数详解
支持向量机是在深度学习流行开来之前,性能表现最好的一种机器学习方法。在看这篇blog之前,默认读者已经有了对支持向量机的基本概念的认识。一、支持向量机的进一步理解支持向量机的优化目标在逻辑回归优化目标基础上进一步产生的。具体优化目标不说了,参看各种svm的书籍和博客。 1、提升线性回归值的划分要求具体来讲,逻辑回归的优化目标是使用sigmoid函数将线性回归 weigh原创 2018-01-11 22:28:22 · 14355 阅读 · 2 评论 -
【机器学习】K均值算法 - 性能分析
K均值算法是最基础的一种聚类算法。具体算法描述就不提了,资料实在太多,这里说一下它的特点和局限性。 一、K均值的特点1、容易陷入局部最小值之所以陷入局部最小值,是因为初始值设置的有问题,即初始的K个base点在属性空间中的位置直接影响了最终的聚类结果。所以可以随机多次进行K均值聚类,选取各种不同的初始值,产生不同的聚类结果。选择一个代价函数(代价函数就是总的距离差的平方和)最小的一原创 2018-01-11 23:00:41 · 1280 阅读 · 0 评论 -
【机器学习】K近邻算法 - 性能分析
Knn算法是一种简单的监督学习算法,虽然性能并不算非常出色,但是可解释性非常强。理论上可以证明,Knn可以以任意精度拟合真实分类高维曲面。 一、Knn算法分析1、该算法在处理样本分布不均匀的时候效果比较差。比如正类的样本数量为1000,反类的样本数量为100,即正反两类的比例悬殊,当测试一个数据样本的时候,很有可能它虽然在距离上靠近反类,但是由于相邻的样本反类太少,正类太多,导致预测不原创 2018-01-11 23:04:48 · 1371 阅读 · 0 评论 -
【机器学习】决策树 总结
具体的细节概念就不提了,这篇blog主要是用来总结一下决策树的要点和注意事项,以及应用一些决策树代码的。一、决策树的优点:易于理解和解释。数可以可视化。也就是说决策树属于白盒模型,如果一个情况被观察到,使用逻辑判断容易表示这种规则。相反,如果是黑盒模型(例如人工神经网络),结果会非常难解释。几乎不需要数据预处理。其他方法经常需要数据标准化,创建虚拟变量和删除缺失值。在sklearn中的决策树还不原创 2017-12-15 00:15:03 · 7099 阅读 · 0 评论 -
【机器学习】线性回归模型分析
具体原理不讲了,线性回归模型,代价损失函数 COST是均方误差,梯度下降方法。属性取值。模型的属性取值设置需要根据每一个参数的取值范围来确定,将所有的属性的取值统一正则化normalization,统一规定在0~1的范围,或者-1~1的范围内,这样在进行线性回归时不会造成额外的回归开销。另外,正则化的方法有很多,常见的方法就是线性正则化,这是在不知道属性对预测值的影响的前提下才这么做的。之原创 2018-01-04 16:31:33 · 985 阅读 · 0 评论