传统机器学习基础
nathan%1
这个作者很懒,什么都没留下…
展开
-
LR总结一
http://www.cnblogs.com/ModifyRong/p/7739955.htmlhttps://zhuanlan.zhihu.com/p/28415991逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,以sigmoid作为假设函数,运用梯度下降来求解参数,来达到将数据二分类的目的。逻辑回归假设因变量 y 服从伯努利分布,而线性回归假设因变量 y 服从高斯分布。...转载 2019-02-12 17:42:16 · 422 阅读 · 0 评论 -
SVM总结一
SVM算法认为图1中的分类器A在性能上优于分类器B,其依据是A的分类间隔比B要大。这里涉及到第一个SVM独有的概念“分类间隔”。在保证决策面方向不变且不会出现错分样本的情况下移动决策面,会在原来的决策面两侧找到两个极限位置(越过该位置就会产生错分现象),如虚线所示。虚线的位置由决策面的方向和距离原决策面最近的几个样本的位置决定。而这两条平行虚线正中间的分界线就是在保持当前决策面方向不变...转载 2019-02-13 10:33:39 · 419 阅读 · 0 评论 -
KNN总结一
即在样本空间中,计算目标与所有样本的距离,并选取k个来进行投票投票最多的类即为目标所属类,k为超参数。from numpy import *import operator# 创建一个数据集,包含2个类别共4个样本def createDataSet(): # 生成一个矩阵,每行表示一个样本 group = array([[1.0, 0.9], [1.0, 1.0], ...转载 2019-02-13 10:41:42 · 316 阅读 · 0 评论 -
GBDT 以及 xgboost 总结一
GBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。同时GBDT是以决策树(CART)为基学习器的GB算法,是迭代树,而不是分类树。https://blog.csdn.net/nathan1025/article/details/81174311http://djjowfy.com/2017/08/01/XGBoost%E7%9A%...转载 2019-02-13 11:29:06 · 281 阅读 · 0 评论 -
xgbt总结二
https://yxzf.github.io/2017/03/xgboost-v1/XGBoost有如下优点:显示的把树模型复杂度作为正则项加到优化目标中。 公式推导中用到了二阶导数,用了二阶泰勒展开。 实现了分裂点寻找近似算法。 利用了特征的稀疏性。 数据事先排序并且以block形式存储,有利于并行计算。 基于分布式通信框架rabit,可以运行在MPI和yarn上。 实现做了...转载 2019-02-13 14:26:11 · 2661 阅读 · 0 评论 -
k-means
第一步 - 随机选择 K 个点作为点的聚类中心,这表示我们要将数据分为 K 类。 第二步 - 遍历所有的点 P, 算出 P 到每个聚类中心的距离,将 P 放到最近的聚类中心的点集中。遍历结束后我们将得到 K 个点集。 第三步 - 遍历每一个点集,算出每一个点集的中心位置,将其作为新的聚类中心。 第四步 - 重复步骤 2 和步骤 3,直到聚类中心位置不再移动。即 生成中心->重新聚类 ...转载 2019-02-13 15:51:42 · 153 阅读 · 0 评论 -
PCA总结一
https://zhuanlan.zhihu.com/p/21580949不同的基可以对同样一组数据给出不同的表示,而且如果基的数量少于向量本身的维数,则可以达到降维的效果。如果我们必须使用一维来表示这些数据,又希望尽量保留原始的信息,你要如何选择?通过上一节对基变换的讨论我们知道,这个问题实际上是要在二维平面中选择一个方向,将所有数据都投影到这个方向所在直线上,用投影值表示原始记...转载 2019-02-13 16:19:51 · 387 阅读 · 0 评论 -
SoftMax 回归 tmp
https://www.cnblogs.com/Determined22/p/6362951.htmlhttp://deeplearning.stanford.edu/wiki/index.php/Softmax%E5%9B%9E%E5%BD%92http://www.360doc.com/content/18/0407/21/32196507_743620592.shtml ...转载 2019-02-13 17:26:09 · 212 阅读 · 0 评论