自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 第四章 决策树

1.信息熵度量样本集合纯度2.信息增益IG越大,意味着选择该属性划分获得的纯度提升越大。3.信息增益比=信息增益/属性固有值信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的C4.5决策树算法[Quinlan, 1993]不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优划分属性。举个极端的例子,一般我们不把样本ID作为属性,如果在这里也考虑ID这一属性,会发现,属性的分支数(取值数)就是样本数,并且一个分支只有一个样本!

2023-11-23 23:25:27 65 1

原创 【机器学习】第三章 线性模型

损失函数:两种是等价的。1.最小二乘法要使得均方误差(square loss)最小。2.极大似然估计使得联合概率(也就是似然函数)最大。前提假设:n个独立同分布样本。似然函数是它们的联合概率,要找一个θ使得最大。似然函数有连乘性,可以取对数。求解参数的过程分两步:1.证明目标函数是凸函数这个先求海塞矩阵(就是多元函数二阶偏导的矩阵),证明这个矩阵是半正定的(就是顺序主子式非负),那么目标函数就是凸函数了。2.用凸函数求最值的方法求解令梯度(一阶偏导)=0即可。

2023-11-20 19:54:30 24 1

原创 【机器学习】第二章 模型评估与选择

进行学习器的比较时,与P -R 图相似,若一个学习器的ROC曲线被另一个学习器的曲线完全“包住"则可断言后者的性能优于前者;若两个学习器的ROC曲线发生交叉,则难以一般性地断言两者孰优孰劣.此时如果一定要进行比较,则较为合理的判据是比较RO C曲线下的面积,即AUC (Area Under。例如,在研究对比不同算法的泛化性能时,我们用测试集上的判别效果来估计模型在实际使用时的泛化能力,而把训练数据另外划分为训练集和验证集,基于验证集上的性能来进行模型选择和调参.那么,如何获取这样的测试集?

2023-11-14 23:33:58 34

原创 【机器学习】第一章 绪论

二分类:y={0,1};机器学习算法学得的模型可以看作:自变量为样本x,因变量为标记y的函数。归纳偏好:算法“喜欢”更一般的,还是更特殊的?数据决定模型的上限,算法是让模型逼近这个上限。泛化能力:在测试集上的效果越好,泛化能力越强。学习算法:从数据中学习出潜在规律的算法。是一个函数空间,是由函数构成的集合。样本空间:样本特征向量所在的空间。是假设空间的最大子集。输入空间到输出空间的映射的集合。机器学习:研究学习算法的学科。所有能拟合假设的模型的集合。,每个样本是“独立同分布”的。标记空间:标记所在的空间。

2023-11-14 23:33:28 16

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除