SVM + LR: 样本数、特征数与模型的选择。

一、前言

复习吴恩达的教学视频时,聆听了大神对SVM的看法,有些触动就写了这篇,当做记笔记了,不当之处还请各位雅正,谢谢。

二、正文

吴恩达提到不同样本数、特征数下的模型选择问题,总结有以下几点,我顺便把我的理解写在下面,没有严格数学推导,只是个人一些口语化的叙述见解。
首先定义样本特征数为 n,训练样本数为 m

1.当 n 很大,m相对于n较小时。(如 n =10000,m = 10-1000)
选用模型:逻辑回归、线性SVM(其实就是普通不带核函数的SVM,视频中也叫线性核函数。)
个人理解:当特征维度过高,每个样本提供的信息已足够训练(如在已知房子的大小、装修情况、交通等等特征后,很容易退出房子单价。),这样的模型很容易过拟合。如果还采用带核函数的SVM,会使得模型更加容易过拟合,所以采用线性模型就够了。
解决方法:降维、增大数据量、正则等等
PS.听过一句话,高维线性模型等于低维非线性模型,结合核函数很好理解。

2.n小,m一般大时。(n = 1-1000 , m = 10-10000/20000)
选用模型:非线性SVM(如高斯核SVM)
个人理解:此时样本数相比于特征数可能差别不是很大,样本特征提供的信息可能不足,为了防止模型欠拟合,所以吴恩达建议使用非线性SVM。

3.n小,m很大时。(n = 1-1000 , m > 50000)
选用模型:非线性SVM 或 逻辑回归、线性SVM。
个人理解:先说吴恩达提到这种大批量训练集情况下使用非线性SVM也不是不可以,只不过核函数的存在会拖累运行速度。使用他建议 增加/创建 新的特征,然后再使用逻辑回归、线性SVM。这个我的理解是,由于特征少,训练得来的模型可能欠拟合,此时需要增加新的特征,获取更多特征信息。(欲向第一种情况靠拢)

4.神经网络的适用范围
视频最后,吴还提了一下神经网络,他的看法是以上3种情况神经网络都能用,只不过神经网络相对于以上经典机器学习算法来说不好训练,得不偿失。

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值