Day05-集成学习-机器学习-分类模型(DataWhale)

最新推荐文章于 2023-11-09 20:11:34 发布

liying_tt

最新推荐文章于 2023-11-09 20:11:34 发布

阅读量269

点赞数 1

分类专栏：机器学习文章标签：决策树 python 机器学习深度学习

本文链接：https://blog.csdn.net/liying_tt/article/details/115275147

版权

本文介绍了如何使用sklearn构建分类项目，涉及数据集选择、性能指标和多种模型训练，包括逻辑回归、线性判别分析、朴素贝叶斯、决策树和支持向量机。重点讲解了各模型的原理、参数和评估方法。

摘要由CSDN通过智能技术生成

二、sklearn构建分类项目

2.1 收集数据集并选择合适的特征

使用IRIS鸢尾花数据集

from sklearn import datasets
import pandas as pd

iris = datasets.load_iris()
X = iris.data
y = iris.target
feature = iris.feature_names
data = pd.DataFrame(X, columns=feature)
data['target'] = y
data.head(2)

	sepal length (cm)	sepal width (cm)	petal length (cm)	petal width (cm)	target
0	5.1	3.5	1.4	0.2	0
1	4.9	3.0	1.4	0.2	0

特征解释：

sepal length：花萼长度
sepal width：花萼款年度
sepal length：花瓣长度
sepal width：花瓣宽度

2.2 选择度量模型性能的指标

分类问题本身的因变量是离散变量
在分类任务种，对于每个类别犯错的代价不尽相同

评价指标

真阳性TP(True Positive)：预测值和真实值都为正
真阴性TN(True Negative)：预测值与真实值都是负
假阳性FP(False Positive)：预测值为正，实际值为负
假阴性FN(False Negative): 预测值为负，实际值为负

在这里插入图片描述

模型指标：

准确率：分类正确的样本数占总样本的比例

$\frac{TP+TN}{TP+TN+FP+FN}$
精度：预测为正且分类正确的样本占预测为正的比例

$\frac{TP}{TP+FP}$
召回率：预测为正且分类正确的样本占类别为正的比例

$\frac{TP}{TP+FN}$
F1值：综合衡量精度和召回率

$2\frac{PRE \times REC}{PRE + REC}$
ROC曲线：以假阳率为横轴，真阳率为纵轴画出来的曲线，曲线下方面积越大越好

真阳率： $\frac{TP}{TP+FP}$

假阳率： $\frac{FP}{TP+FP}$

2.3 选择具体的模型并训练

2.3.1 逻辑回归Logistic Regression

逻辑回归的因变量一般是二分类

常规步骤：

寻找h函数(hypothesis)
构造J函数(损失函数)
寻找使J函数最小时的 $\theta$

(1) 构造预测函数h

利用sigmoid函数:
$\frac{1}{1+e^{-z}}$
对于线性边界，边界为：
$\theta_0+\theta_1x_1+...+\theta_nx_n = \sum_{i=1}^{n}\theta_ix_i = \theta^Tx$
构造预测函数为：
$h_\theta(x) = g(\theta^Tx) = \frac{1}{1+e^{-\theta^{T}x}}$

最低0.47元/天解锁文章

liying_tt

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Day05-集成学习-机器学习-分类模型(DataWhale)

二、sklearn构建分类项目2.1 收集数据集并选择合适的特征使用IRIS鸢尾花数据集from sklearn import datasetsimport pandas as pdiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X, columns=feature)data['target'] = ydata.head(2)
复制链接

扫一扫

专栏目录