常用的回归算法

最新推荐文章于 2024-07-18 15:30:34 发布

temperamentalkj

最新推荐文章于 2024-07-18 15:30:34 发布

阅读量1.6k

点赞数 3

文章标签： machine learning

本文链接：https://blog.csdn.net/Never_say_die_kj/article/details/102471002

版权

一、回归问题与分类问题的区别

回归问题：预测连续数量的任务；用来预测趋势的一类问题。如，价格预测、乘客人数预测等。
分类问题：预测离散类标签的任务。
分类问题和回归问题可共用同一种算法。

二、评估指标

MAE（绝对误差）、MSE(平方误差) 、RMSE（平方根误差）、 Coefficient of determination (决定系数)

三、回归算法

1、回归的定义

回归研究的是因变量（目标结果）和自变量（输入）的函数关系。【注意它和机器学习中回归问题的区别】

2、常用算法

线性回归
应用场景：常用于正则化
优点：简单、容易理解，可使用正则化来降低过拟合风险、容易使用梯度函数来更新参数
缺点：在变量是非线性关系时表现差，很难用于复杂的模型。
逻辑回归
应用场景：用于二分类领域；信用评估；测量市场营销的成功度；预测某个产品的收益；特定的某天是否会发生地震。
优点：实现简单，广泛的应用于工业问题上；分类时计算量非常小，速度很快，存储资源低；对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解决该问题；计算代价不高，易于理解和实现。
缺点：当特征空间很大时，逻辑回归的性能不是很好；容易欠拟合，一般准确度不太高；不能很好地处理大量多类特征或变量；只能处理两分类问题，且必须线性可分；对于非线性特征，需要进行转换。
决策树回归
应用场景：常用于数据分析师希望更好的理解手上数据的时候。
优点：能够学习非线性关系，对异常值也具有很强的鲁棒性。
缺点：无约束的，单棵树很容易过拟合。
随机森林回归
应用场景：数据维度相对低（几十维），同时对准确性要求较高时。
优点：它是决策树的集成方法，在实践中表现很好；即使没有超参数调整，大多数情况下也会带来好的结果；它还降低了决策树中容易发生的过拟合的可能，泛化结果比决策树更好。
缺点：比决策树算法更复杂，计算成本更高；如果一些分类/回归问题的训练数据中存在噪音，随机森林中的数据集会出现过拟合的现象；由于其本身的复杂性，它们比其他类似的算法需要更多的时间来训练。
SVM回归
应用场景：相对比较广泛。
优点：使用核函数可以向高维空间进行映射；使用核函数可以解决非线性的分类；分类思想很简单，就是将样本与决策面的间隔最大化；分类效果较好。
缺点：对大规模数据训练比较困难；无法直接支持多分类，但是可以使用间接的方法来做。
神经网络回归
应用场景：数据量庞大、参数之前存在内在联系时。
优点：具有自学习功能；具有联想存储功能；具有高速寻找优化解的能力。
缺点：最严重的问题是没能力来解释自己的推理过程和推理依据；不能向用户提出必要的询问，而且当数据不充分的时候，神经网络就无法进行工作；把一切问题的特征都变为数字，把一切推理都变为数值计算，其结果势必是丢失信息；理论和学习算法还有待于进一步完善和提高。
深度学习
应用：CNN（AlexNet）