几粒花生米-CSDN博客

原创第四章决策树

1.信息熵度量样本集合纯度2.信息增益IG越大，意味着选择该属性划分获得的纯度提升越大。3.信息增益比=信息增益/属性固有值信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的C4.5决策树算法[Quinlan, 1993]不直接使用信息增益，而是使用“增益率”(gain ratio)来选择最优划分属性。举个极端的例子，一般我们不把样本ID作为属性，如果在这里也考虑ID这一属性，会发现，属性的分支数（取值数）就是样本数，并且一个分支只有一个样本！

2023-11-23 23:25:27 76 1

原创【机器学习】第三章线性模型

损失函数：两种是等价的。1.最小二乘法要使得均方误差（square loss）最小。2.极大似然估计使得联合概率（也就是似然函数）最大。前提假设：n个独立同分布样本。似然函数是它们的联合概率，要找一个θ使得最大。似然函数有连乘性，可以取对数。求解参数的过程分两步：1.证明目标函数是凸函数这个先求海塞矩阵（就是多元函数二阶偏导的矩阵），证明这个矩阵是半正定的（就是顺序主子式非负），那么目标函数就是凸函数了。2.用凸函数求最值的方法求解令梯度（一阶偏导）=0即可。

2023-11-20 19:54:30 35 1

原创【机器学习】第二章模型评估与选择

进行学习器的比较时，与P -R 图相似，若一个学习器的ROC曲线被另一个学习器的曲线完全“包住"则可断言后者的性能优于前者；若两个学习器的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣.此时如果一定要进行比较，则较为合理的判据是比较RO C曲线下的面积，即AUC (Area Under。例如，在研究对比不同算法的泛化性能时，我们用测试集上的判别效果来估计模型在实际使用时的泛化能力，而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参.那么，如何获取这样的测试集？

2023-11-14 23:33:58 48

原创【机器学习】第一章绪论

二分类：y={0，1}；机器学习算法学得的模型可以看作：自变量为样本x，因变量为标记y的函数。归纳偏好：算法“喜欢”更一般的，还是更特殊的？数据决定模型的上限，算法是让模型逼近这个上限。泛化能力：在测试集上的效果越好，泛化能力越强。学习算法：从数据中学习出潜在规律的算法。是一个函数空间，是由函数构成的集合。样本空间：样本特征向量所在的空间。是假设空间的最大子集。输入空间到输出空间的映射的集合。机器学习：研究学习算法的学科。所有能拟合假设的模型的集合。，每个样本是“独立同分布”的。标记空间：标记所在的空间。

2023-11-14 23:33:28 27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 第四章 决策树

原创 【机器学习】第三章 线性模型

原创 【机器学习】第二章 模型评估与选择

原创 【机器学习】第一章 绪论

空空如也

空空如也

原创第四章决策树

原创【机器学习】第三章线性模型

原创【机器学习】第二章模型评估与选择

原创【机器学习】第一章绪论