来源:王子豪,达观数据,以日常生活为例子,秒懂分类算法
分类:对事物进行区分的过程和方法
K最近邻(k-Nearest Neighbor,KNN)
“别和其他坏学生在一起,否则你也会和他们一样”——家长
主要思想:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面所说的K个邻居), 这K个实例的多数属于某个类,就把该输入实例分类到这个类中
朴素贝叶斯
“根据以往抓获的情况来看,十个坏学生有九个爱打架”——教导主任
主要思想:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别
决策树
“先看抽不抽烟,再看染不染头发,最后看讲不讲脏话”——社区大妈
主要思想:在一个数据集中找到一个最优特征,然后从这个特征的选值中找一个最优候选值,根据这个最优候选值将数据集分为两个子数据集,然后递归上述操作,直到满足指定条件为止
逻辑回归
“上课讲话扣1分,不交作业扣2分,比赛得奖加5分”——纪律委员
自变量x和因变量y之间存在类似y=ax+b的一阶的、线性的关系
支持向量机
“我想个办法把表现差的学生都调到最后一排”——班主任
在正负样本的边界上找到一条分割界限(超平面),使得它能完全区分两类样本的同时,保证划分出的间隔尽量的大。
如果线性不可分,1.加上松弛变量进行适当的容忍,2.通过核函数对样本进行空间上的映射后再划分