分类算法：逻辑回归

最新推荐文章于 2021-01-20 17:38:47 发布

python爬虫人工智能大数据

最新推荐文章于 2021-01-20 17:38:47 发布

阅读量299

点赞数

今日分享：逻辑回归基础理论

一：理论简述

逻辑回归从名字上看像是回归预测算法，但其实是一种二分类算法。简单来说逻辑回归是在线性回归的基础上将回归预测值通过sigmod函数映射为一个在区间[0,1]之间的概率值，0.5作为分割阈值，大于阈值的归为一类，小于阈值的归为另一类，于是便实现了二分类。

上述这个公式眼熟吧，就是一般线性回归函数，假设输入单个样本，便得到其预测值

sigmoid函数公式

sigmoid函数图像

由图像可知该函数的值域在[0,1]之间，X取值在负无穷到正无穷之间，这里的X正是前面的预测值，无论预测值是多大或多小的数，只要经过该函数处理，就只能在0,1之间活动，而这个[0,1]之间的值是一个概率值，并不仅单单是一个无意义的实数。

损失函数公式

损失函数值越小，则对该样本预测的类别准确度更高

二：Sklearn逻辑回归API

该方法同样是在线性回归模块下

sklearn.linear_model.LogisticRegression

该模块参数介绍

sklearn.linear_model.LogisticRegression(以下参数)

penalty=l2,
# 惩罚项，可选l1,l2，对参数约束，减少过拟合风险
                                        
dual=False,
# 对偶方法(原始问题和对偶问题),用于求解线性多核（liblinear)的L2的惩罚项上。样本数大于特征数时设置False
                                        
tol=0.0001
# 迭代停止的条件，小于等于这个值停止迭代，损失迭代到的最小值。
                                        
C=1.0,
# 正则化系数λ的倒数，越小表示越强的正则化。
                                        
fit_intercept=True
 # 是否存在截距值，即b
                                
class_weight=None,
# 类别的权重，样本类别不平衡时使用，设置balanced会自动调整权重。
# 为了平横样本类别比例，类别样本多的，权重低，类别样本少的，权重高。
                                        
random_state=None
# 随机种子,设置后可保证数据集的划分不变
                                        
solver=’liblinear’,
# 优化算法的参数，包括newton-cg,lbfgs,liblinear,sag,saga,对损失的优化的方法
                                        
max_iter=100
# 最大迭代次数，
                                        
multi_class=’ovr’
# 多分类方式，有‘ovr','mvm'
                                        
verbose=0,
# 输出日志，设置为1，会输出训练过程的一些结果
                                        
warm_start=False,
# 热启动参数，如果设置为True,则下一次训练是以追加树的形式进行（重新使用上一次的调用作为初始化）
                                        
n_jobs=1 
# 并行数，设置为1，用1个cpu运行，设置-1，用你电脑的所有cpu运行程序