数据分析+分类模型预测乳腺癌患病概率

本文使用Python处理乳腺癌数据集,通过LR和SGD模型预测患病概率,并对比模型效果,发现LR表现更优。
摘要由CSDN通过智能技术生成

一、前言

    本文利用python预处理数据集,再通过机器学习模型:LR、SGD预测乳腺癌患病概率,对比两个模型的预测效果,选择最优的预测方式。

二、数据集说明

    数据集源于威斯康星州临床科学中心。每个记录代表一个乳腺癌的随访数据样本。

#导入pandas与numpy工具包。
import pandas as pd
import numpy as np
# 创建特征列表;10个特征,class是类别标签。
column_names = ['Sample code number', 'Clump Thickness',
                'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                'Marginal Adhesion', 'Single Epithelial Cell Size',
                'Bare Nuclei', 'Bland Chromatin', 
                'Normal Nucleoli', 'Mitoses',
                'Class']
# 使用pandas.read_csv函数从互联网读取指定数据。
data = pd.read_csv(
'https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data'
, names = column_names )
#查看数据情况
data.head()

#数据描述性统计信息
data.describe()

#查看数据维度;一共699条数据,11列:前10列是特征信息,最后一列是类别标签
data.shape

  • 8
    点赞
  • 87
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值