机器学习之Logistic回归简单实例

最新推荐文章于 2024-01-07 18:02:57 发布

CHRN晨

最新推荐文章于 2024-01-07 18:02:57 发布

阅读量1.6k

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/m0_49263811/article/details/112173438

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

logistic是一种线性分类器，针对的是线性可分问题。利用logistic回归进行分类的主要思想是：根据现有的数据对分类边界线建立回归公式，以此进行分类。这里的“回归”一词源于最佳拟合，表示要找到最佳拟合参数集，因此，logistic训练分类器时的做法就是寻找最佳拟合参数，使用的是最优化方法.

例如：在两个类的情况下，函数输出0或1，这个函数就是二值型分类器的sigmoid函数；

$g(x)=\frac{1}{1+e^{-z}}$

如图当x为0时，sigmoid的值为0.5，随着x的增大，对应的sigmoid函数值逼近1，随着x的减小，sigmoid函数的值逼近0

因此为了实现一个logistic回归分类器，可以在每个特征上都乘以一个回归系数，然后把所有的值相加，将这个总和代入sigmoid函数中得到一个0-1范围的数，任何大于0.5的数据归为1类，然后小于0.5的数据归为0类，logistic可以看做是一种概率估计。

例如：在函数f(x)=a*x+b中，为了将整个目标值压缩在（0,1）中，引入logistic函数，于是有 $g(f(x))=\frac{1}{1+e^{-(a*x+b)}}$

logistic回归的一般步骤：收集数据，准备数据，分析数据，训练算法，测试算法，使用算法。

下面用Python代码进行良/恶性肿瘤预测实战。

原始数据下载地址为：https://archive.ics.uci.edu/ml/machine-learing-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data



import pandas as pd
import numpy as np
#创建特征列表
column_names=['Sample code number','Clump Thickness','Unigormity og Cell Size',
              'Uniformity of Cell Shape','Marginal Adhesion','Single Epithlital CellSize',
              'Bare Nuclei','Bland Chromation','Normal Nucleoli','Mitoses','Class']

data=pd.read_csv('https://archive.ics.uci.edu/ml/machine-learing-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data',names=column_names)
data.describle()

#数据预处理
#用no替换为标准缺失值
data=data.replace(to_replace='no',value=np.nan)
#删除缺失值的数据
data=data.dropna()
#对数据进行描述性分析
data.describle()

#用25%的数据作为参数集，75%的数据作为训练集
from sklearn.cross_validation import train_test_split
x_train,x_test,y_train,y_test=train_test_split(data[column_names[1:10]],data[column_names[10]],
                                               test_size=0.25,random_state=33)
#查询训练样本的数量类别
y_train.value_counts()

#查询测试样本的数量和类别
y_test.value_counts()

#用Loistic回归对上面的数据训练
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

#对数据进行标准化处理
#StandardScaler功能：使数据集中每列数据（也就是每个特征数据）都统一标准化
s=StandardScaler()
x_train=s.fit_transform(x_train)
x_test=s.fit_transform(x_test)

#初始化回归器的SGDClassifier
lr=LogisticRegression()

#训练模型
lr.fit(x_train,y_train)

#预测
lr_pred=lr.predict(x_test)

#模型性能评价
from sklearn.metrics import classification_report
#classification_report的功能是显示主要分类指标的文本报告
#使用自带的评分函数
print('Accuracy of LR Classifier:',lr.score(x_test,y_test))