逻辑回归学习总结

Martinal丶

已于 2023-03-09 17:23:04 修改

阅读量234

点赞数

分类专栏：机器学习算法学习文章标签：逻辑回归学习机器学习

于 2023-03-09 16:54:59 首次发布

本文链接：https://blog.csdn.net/qq_39190126/article/details/129426336

版权

机器学习算法学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

逻辑回归（LR）解决的不是回归，而是分类问题。

核心思想：线性回归中出现的值通过sigmoid= 11+e-z转化到(0,1)之间，通过判断输出与0.5（z=0）的关系来做二分类。（时间复杂度O(nd)，d为特征维数）

（线性回归：y=wTx+b => 线性回归：logistic= 11+e-wTx+b<即带入y值至sigmoid函数即可>）

sigmoid函数可以减少线性回归中极端点（偏差过大点）的影响
sigmoid函数的取值为(0,1)，因此贴合概率模型
sigmoid是神经网络的重要基础之一
逻辑回归函数求导即为g'z= gz*(1-g(z))用于梯度下降法求解。

代码：

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import  classification_report
import numpy as np
import pandas as pd


if __name__ == '__main__':
    df_data = pd.read_csv('./merge_data.csv',header=None)
    df =df_data
    df.columns = ['id', 'expiration_id', 'src_ip',
                             'src_mac', 'src_oui', 'src_port',
                             'dst_ip', 'dst_mac', 'dst_oui',
                             'dst_port', 'protocol', 'ip_version',
                             'vlan_id', 'tunnel_id', 'bidirectional_first_seen_ms',
                             'bidirectional_last_seen_ms', 'bidirectional_duration_ms', 'bidirectional_packets',
                             'bidirectional_bytes', 'src2dst_first_seen_ms', 'src2dst_last_seen_ms',
                             'src2dst_duration_ms', 'src2dst_packets', 'src2dst_bytes',
                             'dst2src_first_seen_ms', 'dst2src_last_seen_ms', 'dst2src_duration_ms',
                             'dst2src_packets', 'dst2src_bytes', 'bidirectional_min_ps',
                             'bidirectional_mean_ps', 'bidirectional_stddev_ps', 'bidirectional_max_ps',
                             'src2dst_min_ps', 'src2dst_mean_ps', 'src2dst_stddev_ps',
                             'src2dst_max_ps', 'dst2src_min_ps', 'dst2src_mean_ps',
                             'dst2src_stddev_ps', 'dst2src_max_ps', 'bidirectional_min_piat_ms',
                             'bidirectional_mean_piat_ms', 'bidirectional_stddev_piat_ms',
                             'bidirectional_max_piat_ms',
                             'src2dst_min_piat_ms', 'src2dst_mean_piat_ms', 'src2dst_stddev_piat_ms',
                             'src2dst_max_piat_ms', 'dst2src_min_piat_ms', 'dst2src_mean_piat_ms',
                             'dst2src_stddev_piat_ms', 'dst2src_max_piat_ms', 'bidirectional_syn_packets',
                             'bidirectional_cwr_packets', 'bidirectional_ece_packets', 'bidirectional_urg_packets',
                             'bidirectional_ack_packets', 'bidirectional_psh_packets', 'bidirectional_rst_packets',
                             'bidirectional_fin_packets', 'src2dst_syn_packets', 'src2dst_cwr_packets',
                             'src2dst_ece_packets', 'src2dst_urg_packets', 'src2dst_ack_packets',
                             'src2dst_psh_packets', 'src2dst_rst_packets', 'src2dst_fin_packets',
                             'dst2src_syn_packets', 'dst2src_cwr_packets', 'dst2src_ece_packets',
                             'dst2src_urg_packets', 'dst2src_ack_packets', 'dst2src_psh_packets',
                             'dst2src_rst_packets', 'dst2src_fin_packets', 'application_name',
                             'application_category_name', 'application_is_guessed', 'application_confidence',
                             'requested_server_name', 'client_fingerprint', 'server_fingerprint', 'user_agent',
                             'content_type', 'label']
    df = df.drop(['id', 'expiration_id', 'src_ip',
                             'src_mac', 'src_oui', 'src_port',
                             'dst_ip', 'dst_mac', 'dst_oui',
                             'dst_port', 'protocol', 'ip_version',
                             'vlan_id', 'tunnel_id', 'bidirectional_first_seen_ms',
                          'bidirectional_last_seen_ms', 'src2dst_first_seen_ms', 'src2dst_last_seen_ms',
                          'dst2src_first_seen_ms', 'dst2src_last_seen_ms', 'bidirectional_min_piat_ms',
                          'bidirectional_mean_piat_ms',
                          'bidirectional_max_piat_ms',
                          'src2dst_min_piat_ms', 'src2dst_mean_piat_ms',
                          'src2dst_max_piat_ms', 'dst2src_min_piat_ms', 'dst2src_mean_piat_ms',
                          'dst2src_max_piat_ms', 'application_name',
                          'application_category_name', 'application_is_guessed', 'application_confidence',
                          'requested_server_name', 'client_fingerprint', 'server_fingerprint', 'user_agent',
                          'content_type'], axis=1)

    labels = np.array(df['label'][1:])
    labels = labels.astype('int')

    df = df.drop(['label'],axis=1)
    df = df[1:]
    df = np.array(df)
    train_sample,test_sample,train_label,test_label =train_test_split(df,labels,test_size=0.3,random_state=11)
    """注意正则化影响损失函数优化算法:L1正则化的损失函数不是连续可导的，而{‘newton-cg’, ‘lbfgs’,‘sag’}
    这三种优化算法时都需要损失函数的一阶或者二阶连续导数。而‘liblinear’并没有这个依赖。"""
    model1 = LogisticRegression(penalty='l1',C=0.5,max_iter=100,solver="liblinear")
    model2 = LogisticRegression(penalty='l2',C=0.5,max_iter=100,solver="liblinear")

    model1.fit(train_sample,train_label)
    model2.fit(train_sample, train_label)


    true = test_label.tolist()
    predict1 = model1.predict(test_sample)
    predict2 = model2.predict(test_sample)

    print(classification_report(y_true=true,y_pred=predict1))
    print(classification_report(y_true=true, y_pred=predict2))

逻辑回归的损失函数：损失函数一般定义为预测值和真实值的差（预测值拟合真实分布的好坏），而逻辑回归中的损失函数等同于最大似然函数（交叉熵）。

交叉熵：可以从两个角度理解