SVM + LR: 样本数、特征数与模型的选择。

最新推荐文章于 2023-08-05 21:39:56 发布

tang-shopping

最新推荐文章于 2023-08-05 21:39:56 发布

阅读量8.4k

点赞数 3

分类专栏：心得体会文章标签： SVM LR 样本数特征数

本文链接：https://blog.csdn.net/tangshopping/article/details/100940142

版权

心得体会专栏收录该内容

13 篇文章 7 订阅

订阅专栏

一、前言

复习吴恩达的教学视频时，聆听了大神对SVM的看法，有些触动就写了这篇，当做记笔记了，不当之处还请各位雅正，谢谢。

二、正文

吴恩达提到不同样本数、特征数下的模型选择问题，总结有以下几点，我顺便把我的理解写在下面，没有严格数学推导，只是个人一些口语化的叙述见解。
首先定义样本特征数为 n,训练样本数为 m。

1.当 n 很大，m相对于n较小时。（如 n =10000，m = 10-1000）
选用模型：逻辑回归、线性SVM（其实就是普通不带核函数的SVM，视频中也叫线性核函数。）
个人理解：当特征维度过高，每个样本提供的信息已足够训练（如在已知房子的大小、装修情况、交通等等特征后，很容易退出房子单价。），这样的模型很容易过拟合。如果还采用带核函数的SVM，会使得模型更加容易过拟合，所以采用线性模型就够了。
解决方法：降维、增大数据量、正则等等
PS.听过一句话，高维线性模型等于低维非线性模型，结合核函数很好理解。

2.n小，m一般大时。（n = 1-1000 , m = 10-10000/20000）
选用模型：非线性SVM（如高斯核SVM）
个人理解：此时样本数相比于特征数可能差别不是很大，样本特征提供的信息可能不足，为了防止模型欠拟合，所以吴恩达建议使用非线性SVM。

3.n小，m很大时。（n = 1-1000 , m > 50000）
选用模型：非线性SVM 或逻辑回归、线性SVM。
个人理解：先说吴恩达提到这种大批量训练集情况下使用非线性SVM也不是不可以，只不过核函数的存在会拖累运行速度。使用他建议增加/创建新的特征，然后再使用逻辑回归、线性SVM。这个我的理解是，由于特征少，训练得来的模型可能欠拟合，此时需要增加新的特征，获取更多特征信息。（欲向第一种情况靠拢）

4.神经网络的适用范围
视频最后，吴还提了一下神经网络，他的看法是以上3种情况神经网络都能用，只不过神经网络相对于以上经典机器学习算法来说不好训练，得不偿失。