#吃瓜教程
文章平均质量分 50
机器学习西瓜书+南瓜书自学记录
几粒花生米
这个作者很懒,什么都没留下…
展开
-
第四章 决策树
1.信息熵度量样本集合纯度2.信息增益IG越大,意味着选择该属性划分获得的纯度提升越大。3.信息增益比=信息增益/属性固有值信息增益准则对可取值数目较多的属性有所偏好,为减少这种偏好可能带来的不利影响,著名的C4.5决策树算法[Quinlan, 1993]不直接使用信息增益,而是使用“增益率”(gain ratio)来选择最优划分属性。举个极端的例子,一般我们不把样本ID作为属性,如果在这里也考虑ID这一属性,会发现,属性的分支数(取值数)就是样本数,并且一个分支只有一个样本!原创 2023-11-23 23:25:27 · 72 阅读 · 1 评论 -
【机器学习】第三章 线性模型
损失函数:两种是等价的。1.最小二乘法要使得均方误差(square loss)最小。2.极大似然估计使得联合概率(也就是似然函数)最大。前提假设:n个独立同分布样本。似然函数是它们的联合概率,要找一个θ使得最大。似然函数有连乘性,可以取对数。求解参数的过程分两步:1.证明目标函数是凸函数这个先求海塞矩阵(就是多元函数二阶偏导的矩阵),证明这个矩阵是半正定的(就是顺序主子式非负),那么目标函数就是凸函数了。2.用凸函数求最值的方法求解令梯度(一阶偏导)=0即可。原创 2023-11-20 19:54:30 · 32 阅读 · 1 评论