浅谈分类

mtchy

于 2016-05-16 17:03:02 发布

阅读量491

点赞数

分类专栏：数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Mtchy/article/details/51352784

版权

数据挖掘专栏收录该内容

7 篇文章

订阅专栏

今天唠一唠比较常见的分类算法和实现过程中数据的归一化和测试训练集的划分，下面还是惯例画的很烂的思维导图一副。

1、归一化

在分类过程中由于数据的取值范围不同，我们需要对数据进行归一化。最简单的归一化方法就是最大值-数据值/最大值-最小值，这种方法比较粗糙，更好的方法是标准分数法：数据值-均值/标准差，但这种方法是有缺陷的因为特别突出的大的数值会影响均值，例如几个屌丝和一个土豪一起算平均工资。比较好的方法是中位数法：数据值-中位数/绝对标准差。

2、常见的分类方法

在这里不详细介绍，对各个方法会另起篇幅介绍

1.支持向量机（SVM）适用于小样本

2.向量空间法就是余弦定理，太简单不会介绍，适用于文本分类

3.朴素贝叶斯

4.决策树

5.神经网络

3.测试与训练

3.1测试与训练集的选取

一般采用十折交叉验证，就是把数据集分成十份，一份用于测试九份用于训练，可以重复十次。

3.2 评判标准

3.2.1准确率

P(C)=正确分类/总样本

3.2.2 kappa值

随机分类的准确率P(R)=随机分类后正确的分类/总样本数

K=P(C)-P(R)/1-P(R)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。