分类器简单介绍

关于数据是否线性可分:

线性可分:

非线性可分:

常见分类器:

K近邻分类器(KNN):

最懒惰的学习方法,大概流程就是取一个点,找到离这个点最近的n个点,看哪一个类别最多,就预测那一个类别。
优势:易于操作,对于复杂的情况也可以做到可以接受的效果。
缺点:训练集纬度高时,因为高维灾难的缘故,表现会很差。当k取太小时极容易过度拟合。

支持向量机(SVM):

决策树:

随机森林:


具体使用哪种分类方法:
1. 这个问题本身是个meta-learning,即对方法进行分类-> 不可能有定论,以上抽样举例式的回答是一种回答方式,这里尝试从抽象层面进行回答。
2. 总体上总是可以分成高维方法和低维方法。高维亦即非参数模型,低维即参数模型。显然,非参数方法集之于参数方法集如同无理数集之于有理数集。
3. 参数方法的一个大块是线性模型,统计中这叫回归,数学中这叫投影。这反映了一个应用数学式的思路:一开始问题总是无穷维的,然后开始用投影进行降维,同时加上矢量空间假设,而所有非线性的部分全部扔到坐标轴内部。
4. 参数方法的另一个大块是分布模型,基于似然函数的方法(极大似然)和贝叶斯(先验x似然=后验)。分布模型本质也是降维,把问题降到低维度的参数空间里,并且允许样本误差的存在。事实上线性模型在统计观点下也是一个分布模型,应变量的分布。这样一来回归的多变性不仅在于投影基矢量的构造,还在于应变量分布的概率模型。这是高于应用数学思想的。
5. 当然还可以有别的参数方法。
6. 非参模型的一些例子前面的回答已经提过不少,如kernel,决策树,boosting,bootstrap等等等等。


  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值