Task04:分类问题

构建完整的分类项目

(1) 收集数据集并选择合适的特征

选取IRIS数据集

(2) 选择度量模型性能的指标

真阳性TP:预测值和真实值都为正例;
真阴性TN:预测值与真实值都为正例;
假阳性FP:预测值为正,实际值为负;
假阴性FN:预测值为负,实际值为正;
在这里插入图片描述

分类模型的指标:
准确率:分类正确的样本数占总样本的比例,即:𝐴𝐶𝐶=(𝑇𝑃+𝑇𝑁)/(𝐹𝑃+𝐹𝑁+𝑇𝑃+𝑇𝑁)
精度:预测为正且分类正确的样本占预测值为正的比例,即:𝑃𝑅𝐸=𝑇𝑃/(𝑇𝑃+𝐹𝑃)
召回率:预测为正且分类正确的样本占类别为正的比例,即:𝑅𝐸𝐶=𝑇𝑃/(𝑇𝑃+𝐹𝑁)
F1值:综合衡量精度和召回率,即:𝐹1=2𝑃𝑅𝐸×𝑅𝐸𝐶/(𝑃𝑅𝐸+𝑅𝐸𝐶)
ROC曲线:以假阳率为横轴,真阳率为纵轴画出来的曲线,曲线下方面积越大越好。

(3) 选择具体的模型并进行训练

将回归模型用于分类问题时面临:多分类界限难以划分、负值无意义。

基于概率的分类模型:

(1) 线性判别分析:
基于贝叶斯公式对线性判别分析的理解:
观测有𝐾类,𝜋𝑘(𝜋𝑘=𝑛𝑘/𝑛)为随机选择的观测来自第𝑘类的先验概率,𝑓𝑘(𝑥)=𝑃(𝑋=𝑥|𝑌=𝑘),表示第𝑘类观测的X的密度函数,就是在𝑌=𝑘的样本里𝑋=𝑥的样本个数。分母为样本中𝑋=𝑥的概率(归一化因子)
在这里插入图片描述
问题本质是:计算分子𝜋𝑘𝑓𝑘(𝑥),进而比较哪个类别的概率最大就属于哪个类别。逻辑回归相似,但是逻辑回归需要计算具体的值,而现在的思路是通过贝叶斯定理计算贝叶斯定理的分子,比较分子最大的那个类别为最终类别。
降维分类的思想理解线性判别分析:
将高维的数据降维至一维,然后使用某个阈值将各个类别分开。
要求:类内方差小,类间方差大
在这里插入图片描述
(2) 朴素贝叶斯:
与线性分析的不同:特征之间是独立的。比线性分析的方差小,偏差大。
每种分类类别下的特征遵循同一个协方差矩阵,每两个特征之间是存在协方差的,因此在线性判别分析中各种特征是不是独立的。但是,朴素贝叶斯算法对线性判别分析作进一步的模型简化,它将线性判别分析中的协方差矩阵中的协方差全部变成0,只保留各自特征的方差,也就是朴素贝叶斯假设各个特征之间是不相关的。

决策树

回归问题选择分割点的标准:均方误差
分类问题选择分割点的标准:分类错误率(此区域内的训练集中非常见类所占的类别,即:𝐸=1−𝑚𝑎𝑥𝑘(𝑝̂ 𝑚𝑘))、基尼指数、交叉熵
回归树中,对一个给定的观测值,因变量的预测值取它所属的终端结点内训练集的平均因变量。
分类树来说,给定一个观测值,因变量的预测值为它所属的终端结点内训练集的最常出现的类

支持向量机

找到一个分割平面将类别分开,找到最大间隔超平面,即找到一个分割平面距离最近的观测点最远。

非线性支持向量机

将数据投影至更加高的维度可以更好的处理非线性问题。
但是面临着映射成的高维维度是爆炸性增长的,计算量剧增或者无穷维。在此引入了核函数。
(1) 多项式核函数:
多项式核函数(Polynomial Kernel)是线性不可分SVM常用的核函数之一,表达式为:
𝐾(𝐱𝑖,𝐱𝑗)=(⟨𝐱𝑖,𝐱𝑗⟩+𝑐)^d
C用来控制低阶项的强度,C=0,d=1代表无核函数。
(2) 高斯核函数:
高斯核函数(Gaussian Kernel),在SVM中也称为径向基核函数(Radial Basis Function,RBF),它是非线性分类SVM最主流的核函数。libsvm默认的核函数就是它.
(3) Sigmoid核函数
(4) 余弦相似度核

(4) 评估模型的性能并调参

使用python和numpy做逻辑回归

from sklearn import datasets
import pandas as pd
import numpy as np
iris = datasets.load_iris()
X = iris.data
y = iris.target
feature = iris.feature_names
data = pd.DataFrame(X,columns=feature)
data['target'] = y
data.head()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值