机器学习总结

0机器学习概述 

什么是机器学习?机器学习的分类:两种分类方式。

机器学习的一般流程

模型训练中的交叉验证:将数据分为几份,每份第一次训练做训练集,第二次做了测试集

机器学习的评价:混淆矩阵  AUC ROC

一 线性回归

θ解析解的求解过程,要求自己推导 

目标函数,过拟合,正则式   模型效果(MSE/RMSE/R平方)

梯度下降,由于解析解不是很好求出,利用梯度下降来减小损失函数  有三种梯度下降方式 

二 逻辑回归和softmax回归 

逻辑回归中θ的梯度下降求解  

逻辑回归中的损失函数求解

softmax中θ的梯度下降求解 

三 决策树 

决策树这里内容很多,第一个老师是集成学习讲解的很深,第二个老师是集成学习讲解的很广,决策树将的也不错,第二个老师有四个ppt,还自己找了一个陈天齐的ppt,xgboost的创始人 

①决策树 

四个部分  信息熵  决策树  决策树优化  剪枝

信息熵:信息的不确定性  等于信息乘以概率,注意信息的公式  和概率成反比   

条件熵:Y/X = X,Y-X.在x发声前提下,Y带来的熵

决策树的构建:重点是决策树的构建、关键步骤是分裂属性,目标是各个分裂子集尽可能纯。属性(离散值,连续值)

纯度衡量:GINI系数、熵、错误率——有了纯度以后,可以计算信息增益度 gain = H(D)-H(D/A),和前面的条件熵区分

决策树停止条件 

决策树的算法评估     这里面有个例子,详细的做了一次推导,可以知道这些名词如何运行的

三种决策树:ID3  ID4.5  CART

决策树优化:剪枝、k交叉验证、随机森林

②集成学习

bagging方法:  待选特征---分裂特征  随机森林 ,与bagging的不同,是待选特征---随机抽取待选特征----分裂特征  extra tree比前两者更夸张   待选特征----随机抽取一个特征作为分裂特征 

boosting:提升算法  样本加权   GBDT 利用残差来计算   变种 是xgboosts  和前两种不一样的还有一种叫做Adaboost

四 k-means

这块数学推导比较少,刘老师讲解的是k-means那里要掌握,后面的层次聚类。密度聚类什么可以了解

聚类的关键是样本之间的相似度,也叫作距离 

距离公式1:曼哈顿距离、欧式距离、切比雪夫距离

距离公式2:余弦相似度

距离公式3:jaccard  pearson

①k-means算法:目标函数为欧几里得距离--求导数----更新公式

②二分k-means算法

③k-means++算法:初始点选择是选了一个中心点以后,算距离,选出第二个中心点

④k-means||算法  相比上次,每次获取k个样本

⑤canopy 

⑥ mini-batch

衡量指标:混淆矩阵 、均一性、完整性、V-ME、轮廓系数、ARI、ami

层次聚类:凝聚、分裂    birch

密度聚类:DBSCAN  

谱聚类:

五 SVM

这块听刘老师讲解,挺整体的,虽然数学推导比较多,但基本算一个整体,把数学推导拿下来,就OKl,然后刘老师后面还有一张PPT  我没看见

对于函数优化问题,对于不同条件,有三种方法:

无约束问题:梯度下降法、牛顿法

等式约束问题:拉格朗日乘子法    这里有个想象图,就是一个梯度图和一条线的相切,想想一圈圈的,肯定会有一个圈和那条线相切

不等式约束问题:kkt条件

对偶问题:

感知器模型:

SVM模型:

SVM推导:引入了smo模型

松弛因子 惩罚系数

核函数:针对线性不可分的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值