一、前言
本文利用python预处理数据集,再通过机器学习模型:LR、SGD预测乳腺癌患病概率,对比两个模型的预测效果,选择最优的预测方式。
二、数据集说明
数据集源于威斯康星州临床科学中心。每个记录代表一个乳腺癌的随访数据样本。
#导入pandas与numpy工具包。
import pandas as pd
import numpy as np
# 创建特征列表;10个特征,class是类别标签。
column_names = ['Sample code number', 'Clump Thickness',
'Uniformity of Cell Size', 'Uniformity of Cell Shape',
'Marginal Adhesion', 'Single Epithelial Cell Size',
'Bare Nuclei', 'Bland Chromatin',
'Normal Nucleoli', 'Mitoses',
'Class']
# 使用pandas.read_csv函数从互联网读取指定数据。
data = pd.read_csv(
'https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data'
, names = column_names )
#查看数据情况
data.head()
#数据描述性统计信息
data.describe()
#查看数据维度;一共699条数据,11列:前10列是特征信息,最后一列是类别标签
data.shape