一、基本知识点
1.逻辑回归简介
逻辑回归其实是一种分类模型,逻辑回归作为一种分类算法优缺点如下:
优点:模型简单,便于计算;计算代价低,计算速度很快。
缺点:分类精度不够高;容易欠拟合
2.逻辑回归基本原理
2.1逻辑回归是为了预测离散值情况下的分类问题,譬如
(1)邮件是否是垃圾邮件
(2)肿瘤恶性良性
如上所述这些例子中,被预测的值Y属于(0,1),即Y有两个取值0和1。一般来说0被称为负累,1被称为正类。在实际问题中,正类负类任意指定的,没有固定这一说。
2.2线性回归解决二分类问题的局限性
以二分类问题为例:
如若改变问题(数据中多出了一个样本)
此时若将分类器的阈值设置为0.5,即此时O左侧就会被预测为0,而右侧就会被预测为1.
总结:若不增加这一样本点,则使用线性回归则可以很好地分类,但是增加了这个样本点之后,则产生了误分类。
2.2逻辑回归假设表达式
模型解释:H(X):当输出为某个数字时,这个数字当作对一个输入X,Y=1/0的概率,即:
2.3决策边界
如上所示:此线L被称为决策边界。
决策边界是假设函数的一个属性,取决于架设函数中的参数,而不是取决于数据集的属性。
2.4参数的拟合
若使用上述函数来拟合,则会产生最后的结果并不是收敛到全局最小值,因为假设函数表达式为一个非线性函数。
3.鸢尾花数据实战
3.1库函数的导入
鸢尾花数据集中包含5个变量,具有四个特征,分别为花萼(长度、宽度);花瓣(长度、宽度),目标为鸢尾花的三种类别。
3.2数据导入与查看
3.3可视化
结果如下:
箱线图也可以看出不同类别在不同特征之间的差异。
3.4模型训练
则可以得到混淆矩阵
如上混淆矩阵所示:可以发现准确的度为1,代表所有的样本都预测准确了。
天池龙珠训练营应用逻辑回归对鸢尾花进行分类学习笔记
最新推荐文章于 2024-08-08 00:05:28 发布