Educoder动手实现逻辑回归 - 癌细胞精准识别

最新推荐文章于 2024-04-01 18:01:51 发布

莫轻语ce

最新推荐文章于 2024-04-01 18:01:51 发布

阅读量2.9k

点赞数 3

分类专栏： python

本文链接：https://blog.csdn.net/weixin_42250854/article/details/105478168

版权

python 专栏收录该内容

2 篇文章 2 订阅

订阅专栏

任务描述

本关任务：使用逻辑回归算法建立一个模型，并通过梯度下降算法进行训练，得到一个能够准确对癌细胞进行识别的模型。

相关知识

为了完成本关任务，你需要掌握：

逻辑回归算法流程；
逻辑回归中的梯度下降。

数据集介绍

乳腺癌数据集，其实例数量是 569 ，实例中包括诊断类和属性，帮助预测的属性一共 30 个，各属性包括为 radius 半径（从中心到边缘上点的距离的平均值）， texture 纹理（灰度值的标准偏差）等等，类包括： WDBC-Malignant 恶性和 WDBC-Benign 良性。用数据集的 80% 作为训练集，数据集的 20% 作为测试集，训练集和测试集中都包括特征和类别。其中特征和类别均为数值类型，类别中 0 代表良性， 1 代表恶性。

构建逻辑回归模型

由数据集可以知道，每一个样本有 30 个特征和 1 个标签，而我们要做的事就是通过这 30 个特征来分析细胞是良性还是恶性(其中标签 y=0 表示是良性， y=1 表示是恶性)。逻辑回归算法正好是一个二分类模型，我们可以构建一个逻辑回归模型，来对癌细胞进行识别。模型如下：

在这里插入图片描述

其中 xi表示第 i 个特征，wi表示第 i 个特征对应的权重，b表示偏置。

为了方便，我们稍微将模型进行变换：

在这里插入图片描述
其中x0 等于 1 。

我们将一个样本输入模型，如果预测值大于等于 0.5 则判定为 1 类别，如果小于 0.5 则判定为 0 类别。

训练逻辑回归模型

我们已经知道如何构建一个逻辑回归模型，但是如何得到一个能正确对癌细胞进行识别的模型呢？通常，我们先将数据输入到模型，从而得到一个预测值，再将预测值与真实值结合，得到一个损失函数，最后用梯度下降的方法来优化损失函数，从而不断的更新模型的参数 θ ，最后得到一个能够正确对良性细胞和癌细胞进行分类的模型。

在这里插入图片描述

在上一节中，我们知道要使用梯度下降算法首先要知道损失函数对参数的梯度，即损失函数对每个参数的偏导，求解步骤如下：
在这里插入图片描述
其中a为预测值，y为真实值。

于是，在逻辑回归中的梯度下降公式如下：
在这里插入图片描述
训练流程：

同梯度下降算法流程：请参见上一关卡。

编程要求
根据提示，在右侧编辑器Begin-End处补充 Python 代码，构建一个逻辑回归模型，并对其进行训练，最后将得到的逻辑回归模型对癌细胞进行识别。

测试说明
只需返回预测结果即可，程序内部会检测您的代码，预测正确率高于 95% 视为过关。

提示：构建模型时 x0是添加在数据的左边，请根据提示构建模型,且返回theta形状为(n,)，n为特征个数。

开始你的任务吧，祝你成功！

# -*- coding: utf-8 -*-

import numpy as np
import warnings
warnings.filterwarnings("ignore")

def sigmoid(x):
    '''
    sigmoid函数
    :param x: 转换前的输入
    :return: 转换后的概率
    '''
    return 1/(1+np.exp(-x))


def fit(x,y,eta=1e-3,n_iters=10000):
    '''
    训练逻辑回归模型
    :param x: 训练集特征数据，类型为ndarray
    :param y: 训练集标签，类型为ndarray
    :param eta: 学习率，类型为float
    :param n_iters: 训练轮数，类型为int
    :return: 模型参数，类型为ndarray
    '''
    #   请在此添加实现代码   #
    #********** Begin *********#
    can = np.zeros(x.shape[1])
    for i in range(n_iters):
        y_pred = sigmoid(np.dot(x, can.T))
        can -= eta * np.mean(np.dot((y_pred - y).reshape(1, x.shape[0]), x), axis=0)

    return can

    #********** End **********#

莫轻语ce

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Educoder动手实现逻辑回归 - 癌细胞精准识别

任务描述本关任务：使用逻辑回归算法建立一个模型，并通过梯度下降算法进行训练，得到一个能够准确对癌细胞进行识别的模型。相关知识为了完成本关任务，你需要掌握：逻辑回归算法流程；逻辑回归中的梯度下降。数据集介绍乳腺癌数据集，其实例数量是 569 ，实例中包括诊断类和属性，帮助预测的属性一共 30 个，各属性包括为 radius 半径（从中心到边缘上点的距离的平均值）， texture ...
复制链接

扫一扫