0机器学习概述
什么是机器学习?机器学习的分类:两种分类方式。
机器学习的一般流程
模型训练中的交叉验证:将数据分为几份,每份第一次训练做训练集,第二次做了测试集
机器学习的评价:混淆矩阵 AUC ROC
一 线性回归
θ解析解的求解过程,要求自己推导
目标函数,过拟合,正则式 模型效果(MSE/RMSE/R平方)
梯度下降,由于解析解不是很好求出,利用梯度下降来减小损失函数 有三种梯度下降方式
二 逻辑回归和softmax回归
逻辑回归中θ的梯度下降求解
逻辑回归中的损失函数求解
softmax中θ的梯度下降求解
三 决策树
决策树这里内容很多,第一个老师是集成学习讲解的很深,第二个老师是集成学习讲解的很广,决策树将的也不错,第二个老师有四个ppt,还自己找了一个陈天齐的ppt,xgboost的创始人
①决策树
四个部分 信息熵 决策树 决策树优化 剪枝
信息熵:信息的不确定性 等于信息乘以概率,注意信息的公式 和概率成反比
条件熵:Y/X = X,Y-X.在x发声前提下,Y带来的熵
决策树的构建:重点是决策树的构建、关键步骤是分裂属性,目标是各个分裂子集尽可能纯。属性(离散值,连续值)
纯度衡量:GINI系数、熵、错误率——有了纯度以后,可以计算信息增益度 gain = H(D)-H(D/A),和前面的条件熵区分
决策树停止条件
决策树的算法评估 这里面有个例子,详细的做了一次推导,可以知道这些名词如何运行的
三种决策树:ID3 ID4.5 CART
决策树优化:剪枝、k交叉验证、随机森林
②集成学习
bagging方法: 待选特征---分裂特征 随机森林 ,与bagging的不同,是待选特征---随机抽取待选特征----分裂特征 extra tree比前两者更夸张 待选特征----随机抽取一个特征作为分裂特征
boosting:提升算法 样本加权 GBDT 利用残差来计算 变种 是xgboosts 和前两种不一样的还有一种叫做Adaboost
四 k-means
这块数学推导比较少,刘老师讲解的是k-means那里要掌握,后面的层次聚类。密度聚类什么可以了解
聚类的关键是样本之间的相似度,也叫作距离
距离公式1:曼哈顿距离、欧式距离、切比雪夫距离
距离公式2:余弦相似度
距离公式3:jaccard pearson
①k-means算法:目标函数为欧几里得距离--求导数----更新公式
②二分k-means算法
③k-means++算法:初始点选择是选了一个中心点以后,算距离,选出第二个中心点
④k-means||算法 相比上次,每次获取k个样本
⑤canopy
⑥ mini-batch
衡量指标:混淆矩阵 、均一性、完整性、V-ME、轮廓系数、ARI、ami
层次聚类:凝聚、分裂 birch
密度聚类:DBSCAN
谱聚类:
五 SVM
这块听刘老师讲解,挺整体的,虽然数学推导比较多,但基本算一个整体,把数学推导拿下来,就OKl,然后刘老师后面还有一张PPT 我没看见
对于函数优化问题,对于不同条件,有三种方法:
无约束问题:梯度下降法、牛顿法
等式约束问题:拉格朗日乘子法 这里有个想象图,就是一个梯度图和一条线的相切,想想一圈圈的,肯定会有一个圈和那条线相切
不等式约束问题:kkt条件
对偶问题:
感知器模型:
SVM模型:
SVM推导:引入了smo模型
松弛因子 惩罚系数
核函数:针对线性不可分的