使用逻辑回归进行肿瘤预测

最新推荐文章于 2023-11-28 16:13:26 发布

九久呀

最新推荐文章于 2023-11-28 16:13:26 发布

阅读量1k

点赞数

分类专栏： python学习深度学习入门与进阶

本文链接：https://blog.csdn.net/qq_38851184/article/details/115346939

版权

深度学习入门与进阶同时被 2 个专栏收录

48 篇文章 1 订阅

订阅专栏

python学习

35 篇文章 0 订阅

订阅专栏

文章目录

数据集

https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin

下载.data文件即可在这里插入图片描述

数据描述

（1）699条样本，共11列数据，第一列用语检索的id，后9列分别是与肿瘤

相关的医学特征，最后一列表示肿瘤类型的数值。

（2）包含16个缺失值，用”?”标出。

导入相关的包

import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error
import ssl
ssl.create_default_context = ssl._create_unverified_context

数据处理

数据读取

cancer = pd.read_csv("data/BreastCancer/breast-cancer-wisconsin.data")
names = ['Sample code number', 'Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                   'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
                   'Normal Nucleoli', 'Mitoses', 'Class']
cancer.columns = names

缺失值处理

# 由于699个样本中只有16个缺失值，选择删除
cancer = cancer.replace(to_replace='?',value=np.nan)
cancer = cancer.dropna()

划分数据集

feature_data = cancer[['Clump Thickness', 'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                   'Marginal Adhesion', 'Single Epithelial Cell Size', 'Bare Nuclei', 'Bland Chromatin',
                   'Normal Nucleoli', 'Mitoses']] # cancer.iloc[:,1:-1] 获取所有行，从第一列至倒数第二列
target = cancer['Class']
x_train,x_test,y_train,y_test = train_test_split(feature_data,target,test_size = 0.25,random_state = 22)

特征工程

#  实例化
transfer = MinMaxScaler(feature_range=(2,4))
#  调用fit_transform
x_train = transfer.fit_transform(x_train)
x_test = transfer.fit_transform(x_test)

机器学习

estimator = LogisticRegression(solver='lbfgs')
estimator.fit(x_train,y_train)

模型评估

y_pre = estimator.predict(x_test)
print(estimator.score(x_test,y_test))
print(mean_squared_error(y_test,y_pre))

但是我们光看准确率还是远远不够的，比如以这个癌症举例子！！！我们并不关注预测的准确率，而是关注在所有的样本当中，癌症患者有没有被全部预测（检测）出来。

九久呀

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
使用逻辑回归进行肿瘤预测

文章目录数据集数据描述导入相关的包数据处理数据读取缺失值处理划分数据集特征工程机器学习模型评估数据集https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin下载.data文件即可数据描述（1）699条样本，共11列数据，第一列用语检索的id，后9列分别是与肿瘤相关的医学特征，最后一列表示肿瘤类型的数值。（2）包含16个缺失值，用”?”标出。导入相关的包import pandas as
复制链接

扫一扫