使用Apache Spark机器学习逻辑回归预测乳腺癌

最新推荐文章于 2022-12-28 09:37:25 发布

danpu0978

最新推荐文章于 2022-12-28 09:37:25 发布

阅读量776

点赞数

文章标签：算法大数据 python 机器学习人工智能

本文介绍如何利用Apache Spark的spark.ml库进行逻辑回归，以预测乳腺癌的恶性程度。通过介绍数据集、特征提取、模型训练和测试，展示了如何构建一个99%准确率的分类模型。

摘要由CSDN通过智能技术生成

在此博客文章中，我将帮助您开始使用Apache Spark的spark.ml Logistic回归来预测癌症恶性程度。
Spark的spark.ml库目标是在DataFrames之上提供一组API，以帮助用户创建和调整机器学习工作流程或管道。将spark.ml与DataFrames一起使用可通过智能优化提高性能。

逻辑回归

Logistic回归是预测二进制响应的流行方法。这是广义线性模型的一种特殊情况，可以预测结果的可能性。 Logistic回归通过使用Logistic函数估计概率来度量Y“标签”和X“特征”之间的关系。该模型预测用于预测标签类别的概率。

使用Spark机器学习场景分析癌症观察结果

我们的数据来自威斯康星州诊断性乳腺癌（WDBC）数据集，该数据集根据9种特征将乳腺肿瘤病例分为良性或恶性，以预测诊断。对于每个癌症观察，我们都有以下信息：

1. Sample code number: id number 
2. Clump Thickness: 1 - 10 
3. Uniformity of Cell Size: 1 - 10 
4. Uniformity of Cell Shape: 1 - 10 
5. Marginal Adhesion: 1 - 10 
6. Single Epithelial Cell Size: 1 - 10 
7. Bare Nuclei: 1 - 10 
8. Bland Chromatin: 1 - 10 
9. Normal Nucleoli: 1 - 10 
10. Mitoses: 1 - 10 
11. Class: (2 for benign, 4 for malignant)

癌症观察csv文件具有以下格式：

1000025,5,1,1,1,2,1,3,1,1,2
1002945,5,4,4,5,7,10,3,2,1,2
1015425,3,1,1,1,2,2,3,1,1,2

在这种情况下，我们将基于以下特征构建一个逻辑回归模型，以预测恶性肿瘤的标签/分类：

标签→恶性或良性（1或0）
特征→{丛集厚度，细胞大小均匀性，细胞形状均匀性，边缘粘附性，单上皮细胞大小，裸核，温和染色质，正常核仁，线粒体}

Spark ML提供了一组基于DataFrames的统一高级API。 Spark ML的主要概念是：

DataFrame：ML API使用Spark SQL中的DataFrames作为ML数据集。
变压器：变压器是一种将一个DataFrame转换为另一个DataFrame的算法。例如，将具有特征的DataFrame转换为具有预测的DataFrame。
估计器：估计器是一种算法，可以适合于DataFrame来生成Transformer。例如，在DataFrame上进行训练/调整并生成模型。
管道：管道将多个“变形器”和“估计器”链接在一起，以指定ML工作流程。
ParamMaps：要选择的参数，有时也称为“参数网格”。
评估者：一种度量标准，用于根据保留的测试数据来衡量拟合模型的表现。
CrossValidator：确定最佳的ParamMap，并使用最佳的ParamMap和整个数据集重新拟合Estimator。

在此示例中，将使用如下所示的Spark ML工作流程：

软件

本教程将在Spark 1.6.1上运行

您可以从此处下载代码和数据以运行这些示例： https : //github.com/caroljmcdonald/spark-ml-lr-cancer
使用spark-shell命令启动后，本文中的示例可以在Spark shell中运行。

最低0.47元/天解锁文章

danpu0978

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫