逻辑斯蒂回归
2、实战
实战二. 癌细胞数据
1. 导入数据
- 导入癌细胞数据集
- data总共569条数据,每条数据30个特征
2. 创建逻辑斯蒂算法模型,训练
查看泛化性能
3 创建网格搜索模型,调优
- 查看性能
- 查看查正率,查全率,f1值
这个性能显然是不达标的
恶性肿瘤的查正率为0.96,也就是100个人中,预测正确的只有96个,有4个本来是良性肿瘤,但却被诊断为恶性肿瘤,这个复查,查正确的可能性很大,然后虚惊一场
但是,良性肿瘤的查全率为0.97,也就是100个人中,预测为良性正确的有97个,还有3个是恶性肿瘤,却被预测为良性肿瘤,这个是很危险的事,医学检测的准确率一定要很高,接近100%,不然后果很严重
所以,接下来要进行数据优化
4. 数据优化
首先看一下训练集数据,取一条查看
数据之间还是有点差距的,所以还是有必要进行数据的归一化
4.1 归一化
- 创建归一化模型,进行调优
- 查看性能
4.2 正则化
- 创建正则化模型,调优
- 查看性能
经验准去率那么低,泛化准确率也不用看了,正则化不行
4.3 标准化
- 创建标准化模型,调优
- 查看性能
经过对比,正则化后的算法模型性能最佳