DW集成学习Task2

最新推荐文章于 2024-07-15 17:40:57 发布

momokofly

最新推荐文章于 2024-07-15 17:40:57 发布

阅读量104

点赞数

分类专栏： DW 文章标签：其他

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/momokofly/article/details/118785338

版权

DW 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

（未添加代码块）

1. 导论

有监督学习（回归、分类）和无监督学习（聚类）
回归：因变量是连续变量
分类：因变量是离散变量
有监督学习：有因变量，有特征向量，预测结果/未来
无监督学习：无因变量，有特征向量，寻找数据中的结构

sklearn：包含各种数据集

1.1 回归

1.2 分类

1.3 无监督学习

2. 使用sklearn构建完整的机器学习项目流程

明确项目任务：回归/分类
收集数据集并选择合适的特征
选择度量模型性能的指标：均方误差、平均绝对误差、决定系数、解释方差得分
选择具体的模型并进行训练以优化模型（机器学校算法岗和人工智能岗要了解模型背后的原理和数学公式推导过程）
评估模型的性能并调参

2.1 使用sklearn构建完整的回归项目

线性回归模型

几何解释部分：要找到 $w$ ，使得 $Y$ 与 $X w$ 之间的距离最小，即 $Y - X w$ 与 $X$ 平面的距离最小。
线性回归的最小二乘估计等价于噪声服从正态分布的极大似然估计

目前的很多模型都是在线性回归模型的基础上进行改进而得的
逐渐打破线性模型的经典假设，来适用于更广泛的场景中

线性回归的推广

多项式回归

打破经典假设之一：模型设定无偏误
多项式回归模型，真实模型为非线性模型
多项式的阶数 $d$ 不能取过大，一般不大于3或者4，因为 $d$ 越大，多项式曲线就会越光滑，在 $x$ 的边界处有异常的波动

广义可加模型（GAM）

GAM模型框架：
$y_i=w_0+\displaystyle\sum_{j=1}^{p} f_j(x_{ij})+e_i$
优点：简单容易操作，能够很自然的推广线性回归模型至非线性模型，是的模型的预测精度有所上升；由于模型本身是可加的，因此GAM还是能像线性回归模型一样把其他因素控制不变的情况下单独对某个变量进行推导，极大地保留了线性回归的基于推断的性质。
缺点：GAM模型会经常忽略一些有意义的交互作用，比如某两个特征共同影响因变量，不过GAM还是能像线性回归一样加入交互项的形式，可能还会提升模型预测精度。

显著性（数据分析师->假设检验->A/B测试）

回归树

打破线性回归模型的“线性”关系的假设
回归树与线性模型的比较：如果特征变量与因变量的关系能很好地用线性关系表述，那么线性回归通常有着不错的预测效果，拟合结果则优于不能揭示线性结构的回归树，反之，如果特征变量与因变量的关系呈现高度复杂的非线性，那么树方法比传统方法更优。

树模型的优缺点：
树模型的解释性强，在解释性方面可能比线性回归还要方便；
树模型更接近人的决策方式；
树模型可以用图来表示，非专业人士也可以轻松解读；
树模型可以直接做定性的特征而不需要像线性回归一样哑元化；
树模型能很好地处理缺失值和异常值，对异常值不敏感，但是这个对线性模型来说却是致命的；
树模型的预测准确性一般无法达到其他回归模型的水平，但是改进方法很多。
（sklearn回归树的参数含义）

支持向量机回归（SVR）

约束优化问题（约束+优化）
（约束：不等式约束、等式约束）
KKT条件
对偶理论
极大似然估计：使得事件发生的概率最大，多个事件同时发生的概率最大，得到似然函数。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。