Logistic regression代码实现

最新推荐文章于 2022-11-05 18:50:19 发布

weixin_40008288

最新推荐文章于 2022-11-05 18:50:19 发布

阅读量228

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_40008288/article/details/111220029

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

导入模块

模型采用sklearn模块导入

#导入模块
from sklearn.linear_model import LogisticRegression

读取数据

训练模型时需要导入训练集数据，即输入与输出的数据集。训练数据可以是任何格式的数据集，通过提取转换为x,y。

#这个例子是直接使用了自定义数组，导入训练数据，分别定义为x,y
x_fearures = np.array([[-1, -2], [-2, -1], [-3, -2], [1, 3], [2, 1], [3, 2]])
y_label = np.array([0, 0, 0, 1, 1, 1])

如果是csv、txt格式的file文件，可以通过pandas直接读取。

import pandas as pd
'''
csv
'''
file_dir = r'c:\test.csv'
data_set = pd.read_csv(file_dir)  #导入的数据将是一个dataframe的格式
#然后再通过切片的方式将数据赋值给x,y
x = data_set[:-2] 
y = data_set[-2:-1]

如果是xml格式的呢，则需要通过xml.dom.minidom获取指定元素，保存为dataframe或者其他格式。

'''
xml读取的示例
'''
import xml.dom.minidom
import pandas as pd

def DOM_XML(xml_path):
    # 创建接收DataFrame
    JOBs = pd.DataFrame()
    # 创建接收数组
    NAMe = []
    VALUe = []

    # 解析获取XML需要部分
    DOMTree = xml.dom.minidom.parse(xml_path)
    DEFTABLE = DOMTree.documentElement
    Jobs = DEFTABLE.getElementsByTagName("JOB")

    # 获取存储Elements
    for JOB in Jobs:
        for VARIABLE in VARIABLEs:
            NAME = VARIABLE.getAttribute("NAME")
            VALUE = VARIABLE.getAttribute("VALUE")
            NAMe.append(NAME)
            VALUe.append(VALUE)
    JOBs['VARIABLE_VALUE'] = VALUe
    JOBs['VARIABLE_NAME'] = NAMe
    return JOBs

预处理数据

一般情况下，数据都要经过预处理这个步骤。即查看数据的类型，缺失情况，异常值或者进行数据转换等操作。

dataset.info()  #查看数据样本整体情况
dataset.describe()  #查看数据样本的统计描述

#异常值分析一方面可以针对统计量进行，另外方面需要结合数据实际含义进行。异常值查询方法较多，以下列举两个：
#通过统计量查看异常值
q1 = dataset['25%']
q3 = dataset['75%']
iqr = q3 - q1
mi = q1 - 1.5*iqr
ma = q3 + 1.5*iqr
print('分位差为：%.3f，下限为：%.3f，上限为：%.3f' % (iqr,mi,ma))

#通过箱型图分析异常值
fig = plt.figure(figsize = (10,6))
ax1 = fig.add_subplot(2,1,1)
color = dict(boxes='DarkGreen', whiskers='DarkOrange', medians='DarkBlue', caps='Gray')
data.plot.box(vert=False, grid = True,color = color,ax = ax1,label = '样本数据')


#缺失值处理时，需要针对缺失情况以及数据需求进行处理，可以涉及剔除、均值补齐、回归补齐、特定数值补齐等（无特定处理方式）
dataset.isnull().any(axis = 0) #查看是否存在缺失值
dataset.isnull().sum(axis = 0) #统计缺失值的数量
dataset.isnull().any(axis = 1).sum()/dataset.shape[0]  #统计缺失值的占比

定义模型

定义逻辑回归模型，以供拟合数据集的时候使用，通过fit()`方法进行数据训练

#定义模型函数
lr_clf = LogisticRegression()
#通过fit()方法进行数据训练
lr_clf = lr_clf.fit(x_fearures, y_label)

查看模型参数

lr_clf.coef_
lr_clf.intercept_

可视化

有时候为了更直观的呈现模型或者数据情况，我们需要将数据可视化

#可视化模块
import matplotlib.pyplot as plt
import seaborn as sns

plt.figure() #定义绘图
plt.scatter(x_fearures[:,0],x_fearures[:,1], c=y_label, s=50, cmap='viridis') #定义x,y数据
plt.title('Dataset') #定义标题
plt.show()  #呈现

利用训练好的模型进行预测，通过predict()方法进行预测

## 在训练集和测试集上分布利用训练好的模型进行预测，predict(dataset)
y_label_new1_predict = lr_clf.predict(x_fearures_new1)
y_label_new2_predict = lr_clf.predict(x_fearures_new2)

## 由于逻辑回归模型是概率预测模型（前文介绍的 p = p(y=1|x,\theta)）,所有我们可以利用 predict_proba 函数预测其概率
y_label_new1_predict_proba = lr_clf.predict_proba(x_fearures_new1)
y_label_new2_predict_proba = lr_clf.predict_proba(x_fearures_new2)

weixin_40008288

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Logistic regression代码实现

基本概念Logistic Regression 逻辑斯谛回归，属于对数线性模型，亦属于分类模型的一种。模型假设数据服从Logistic分布，然后使用极大似然估计做参数的估计。首先我们需要了解什么是Logistic分布：设X是连续随机变量，X服从逻辑斯谛分布是指X具有下列分布函数和密度函数：F(x)=P(X≤x)=11+e−(x−μ)/γF(x) = P(X \leq x) = \frac{1}{1+e^{-(x-\mu)/\gamma}}F(x)=P(X≤x)=1+e−(x−μ)/γ1f(x)
复制链接

扫一扫