数据分析+分类模型预测乳腺癌患病概率

最新推荐文章于 2024-06-27 19:13:37 发布

Python技术博文

最新推荐文章于 2024-06-27 19:13:37 发布

阅读量5.4k

点赞数 8

本文链接：https://blog.csdn.net/FRBeVrQbN4L/article/details/102993858

版权

本文使用Python处理乳腺癌数据集，通过LR和SGD模型预测患病概率，并对比模型效果，发现LR表现更优。

摘要由CSDN通过智能技术生成

一、前言

本文利用python预处理数据集，再通过机器学习模型：LR、SGD预测乳腺癌患病概率，对比两个模型的预测效果，选择最优的预测方式。

二、数据集说明

数据集源于威斯康星州临床科学中心。每个记录代表一个乳腺癌的随访数据样本。

#导入pandas与numpy工具包。
import pandas as pd
import numpy as np
# 创建特征列表；10个特征，class是类别标签。
column_names = ['Sample code number', 'Clump Thickness',
                'Uniformity of Cell Size', 'Uniformity of Cell Shape',
                'Marginal Adhesion', 'Single Epithelial Cell Size',
                'Bare Nuclei', 'Bland Chromatin', 
                'Normal Nucleoli', 'Mitoses',
                'Class']
# 使用pandas.read_csv函数从互联网读取指定数据。
data = pd.read_csv(
'https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data'
, names = column_names )
#查看数据情况
data.head()

#数据描述性统计信息
data.describe()

#查看数据维度;一共699条数据，11列：前10列是特征信息，最后一列是类别标签
data.shape

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Python技术博文

关注关注

8
点赞
踩
87

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

乳房癌预测

02-18

乳腺癌预测问题定义 乳腺癌是乳腺癌细胞的癌症。世界范围的乳腺癌是女性癌症的主要类型，占所有病例的25％。它是美国女性中诊断出的第二大常见癌症。它可以在男性和女性中发生，但在女性中更为普遍。多年来，由于诊断和治疗的进步，乳腺癌的存活率提高了，与乳腺癌有关的死亡人数下降了。早期发现意味着使用一种方法，该方法可以帮助乳腺癌在疾病发展之前在时间轴上更早地得到诊断。 乳腺癌的认识和筛查是有助于及时诊断和治疗的两个主要组成部分。受癌症影响的细胞称为恶性细胞。恶性细胞与人体内的正常细胞不同，它们分裂得非常快并且会侵入周围的组织。当它们以加速的速度分裂时，它们通常会形成称为肿瘤的组织块。有时细胞繁殖并形成肿瘤而不会扩散到周围组织，并且肿瘤不是癌性的，这些被称为良性细胞。这项研究的目的是根据细胞图像的数值预测来预测患者是良性还是恶性肿瘤。数据采集该数据集来自UCI机器学习存储库威

sklearn 内置数据集-威斯康星州乳腺癌数据集

m0_51542629的博客

05-24

1万+

威斯康星州乳腺癌数据集是scikit-learn（sklearn）库中一个常用的内置数据集，用于分类任务。该数据集包含了从乳腺癌患者收集的肿瘤特征的测量值，以及相应的良性（benign）或恶性（malignant）标签。数据集名称：威斯康星州乳腺癌数据集（Breast Cancer Wisconsin Dataset）数据集来源：数据集最初由威斯康星州医院的Dr. William H. Wolberg收集。

参与评论您还未登录，请先登录后发表或查看评论

Python数据分析-基于机器学习的乳腺癌数据分析与预测

m0_69565964的博客

06-27

1924

乳腺癌，作为女性群体中一种常见的恶性肿瘤，其根源在于乳腺上皮细胞的异常增殖。近年来，这种疾病的发病率逐年攀升，已成为女性恶性肿瘤的首要威胁，对女性的整体健康造成了极大的影响。数据挖掘是一个复杂的过程，Python利用丰富的库和工具进行两个非常重要的步骤，数据预处理和可视化，通过图形的形式清晰、直观的了解各个特征与乳腺癌之间的关系，从众多的特征中选择出与乳腺癌患病和复发最相关的特征。基于UCI乳腺癌数据建立了多个不同的机器算法进行模型的训练与预测，并进行模型评估对比，选择合适的机器学习算法。

机器学习——K近邻算法及乳腺癌检测分类

杨老师的小跟班(*∩_∩*)

09-22

4306

机器学习——K近邻算法及乳腺癌检测分类 KNN可用于分类和回归，用于分类时是多分类方法。

分类4：机器学习处理乳腺癌数据集代码

ww596520206的博客

02-22

2399

乳腺癌数据属于二分类问题，包含569条样本，31个特征，1个标签维度。数据归一化、机器学习。

数据分析案例：预测乳腺癌是否复发

栖客

07-18

946

医院有78条乳腺癌病人的数据，这些病人经过治疗，其中34位5年内病情复发，另外44位5年内未见复发，现需要对19位经过治疗的病人，分析其在5年内是否会复发，并评估模型的准确性及可行性。数据说明训练数据包含78位乳腺癌病人样本，他们中的34位5年内病情复发（标记为relapse)，另外的44位至少在5年内未复发（标记为non-relapse）。相应地，这里有12位复发，7位未复发的病人样本在测试集中。使用到的基因数量为24481。 LDA降维由于维度太多，直接参与计算，...

CART决策树+随机森林对乳腺癌数据进行分类+实验代码+结果分析

11-25

CART 决策树+随机森林对乳腺癌数据进行分类+实验代码+结果分析本文主要讲解了随机森林算法在乳腺癌数据分类中的应用，并对随机森林的原理、特征选择算法和实现代码进行了详细的解释。一、随机森林（Random ...

乳腺癌数据分析报告和数据集

热门推荐

若云流风的专栏

02-25

2万+

零、定义问题1.1 数据介绍http://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.names＃属性域1.示例代码号码2.块厚度1 - 103.细胞大小的一致性1 - 104.电池形状的均匀性1 - 105.边缘附着力1 - 106.单个上皮细胞......

【机器学习】基于机器学习的乳腺癌预测模型

MING.MING的博客

12-11

2万+

基于机器学习的乳腺癌预测模型（附Python代码）前提说明项目介绍导入数据概述数据数据可视化评估算法实施预测代码参考前提说明此博客内容为2018年山东省人工智能大赛曲阜师范大学青春梦想队所创作，未经授权，禁止使用。项目介绍这个项目是针对乳腺癌进行分类的一个项目，使用的乳腺癌数据集，具有如下特点： ①所以特征数字都是数字，不需要考虑如何导入以及如何处理数据 ②特征列第一列为用户ID信息，不...

【小白学习PyTorch教程】七、基于乳腺癌数据集构建Logistic 二分类模型

fengdu78的博客

08-09

1070

「@Author：Runsen」在逻辑回归中预测的目标变量不是连续的，而是离散的。可以应用逻辑回归的一个示例是电子邮件分类：标识为垃圾邮件或非垃圾邮件。图片分类、文字分类都属于这一类。在这...

Python—对乳腺癌数据集预处理和分类

weixin_45652976的博客

01-15

7123

目标：十交叉验证题目：已知 UCI 数据集 breast-cancer-wisconsin，breast-cancer-wisconsin 是肿瘤学家研究切片组织，描述组织各种特征决定肿瘤是良性还是恶性的数据集，数据集共有699个样本个数，有11个特征，第一个为id number，最后一个为class(有无癌症的分类)，该数据集包含若干个缺失数据。要求： (1)首先对缺失数据进行处理，并说明处理的方法。 (2)随机选取数据集的 70%的数据构成训练集，剩余30%数据构成测试集，并应用逻辑回归算法对测试

NCI SEER breast cancer美国国立癌症研究所数据库乳腺癌生存分析和乳腺癌预测模型(2024年新项目)

toby001111的博客

04-08

1079

NCI SEER breast cancer美国国立癌症研究所数据库乳腺癌生存分析和乳腺癌预测模型(2024年新项目)

乳腺癌图像数据预处理--mias-database1

m0_56835028的博客

11-02

3847

深度学习小白，最近在做乳腺癌良恶性分类的内容，尝试复现论文：乳腺钼靶图像中的肿块良恶性分类 - 中国知网这里面的图像预处理花了不少时间（因为是小白嘛）（而且我用的数据集是mias-database1和论文中的不一样，所以后面效果方面和论文相比会有出入）大致流程如下：先采用OTSU（大津法）方法将乳腺部分和背景区域分割开，之后再使用截断归一化对乳房的最小外接矩形区域做归一化处理，之后采用两种不同的阈值对矩形区域进行自适应直方图均衡化操作，最后将以上三幅图像拼接成最终的三通道增强图像。具体流程

WPBC乳腺癌数据集建模（Ⅱ）—预后诊断模型建立

徐思孟的博客

05-25

5188

基于SVM、PCA构建的预后诊断模型。