机器学习概论3——回归、聚类问题
机器学习概论系列主要整理机器学习方面的一些理论知识,而具体实现则主要在PyTorch学习笔记中记录。本篇是机器学习学习笔记系列第三篇,本篇在观看了读芯术AI网课后整理而成。
4.3.2 回归问题
回归分析用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量值也随之发生变化。直观来说回归问题等价于函数拟合,选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据
- 分类

4.3.2.1 线性回归
- 定义
假设特征和结果满足线性关系。线性回归意味着可以将输入项分别乘以一些常量,再加某个常量得到输出y=ax+b - 流程

-
线性回归扩展
线性回归扩展算法用简单的基函数φ(x)替换输入变量x,这样把线性拟合形式扩展到了固定费线性函数的线性组合
其公式如下图所示
如下图所示为在某参数下线性回归扩展的函数图
可以看到,当M=9时(右下图),红色曲线能穿过每一个点,看上去性能很好,但实际上其与真实分布(绿色曲线)差距较大,因此实际使用效果并没有那么好,这可以称之为过拟合问题
解决过拟合问题的方法
-
岭回归
应用结构风险最小化的模型选择策略,在经验风险最小化的基础上加入正则化因子。当正则化因子选择为模型参数的二范数的时候,整个回归的方法就叫做岭回归

4.3.1.2 贝叶斯分类
-
定义
基于贝叶斯定理和属性特征条件独立性的一种分类方法
贝叶斯流派的核心:Proability theory is nothing but common sense reduced to calculation.概率论只不过是把常识用数学公式表达出来——拉普拉斯

-
处理流程:
1、计算先验概率
2、为每个属性计算条件概率
3、计算后验概率,并得出分类结果 -
优点
1、算法逻辑简单,易于实现
2、分类过程中时空开销小 -
缺点
理论上,朴素贝叶斯模型与其他分类方法相比具有最小的误差率,但是实际上并不如此,因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好 -
优化
按照贝叶斯公式,如果分子中某一个先验概率或条件概率概率为0,则计
最低0.47元/天 解锁文章

1894

被折叠的 条评论
为什么被折叠?



