算法初步梳理任务二逻辑回归算法梳理

qq_40061088

于 2019-03-03 17:49:54 发布

阅读量165

点赞数

分类专栏： datawhale 初级算法梳理

本文链接：https://blog.csdn.net/qq_40061088/article/details/88088429

版权

datawhale 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

初级算法梳理

3 篇文章 0 订阅

订阅专栏

学习内容
1、逻辑回归与线性回归的联系与区别
联系：
线性回归决策函数
将其通过sigmoid函数，获得逻辑回归的决策函数
区别：
线性回归用来预测，逻辑回归用来分类。
线性回归是拟合函数，逻辑回归是预测函数
线性回归的参数计算方法是最小二乘法，逻辑回归的参数计算方法是梯度下降
附：https://blog.csdn.net/lx_ros/article/details/81263209
https://blog.csdn.net/jiaoyangwm/article/details/81139362

2、逻辑回归的原理
面对一个回归或者分类问题，建立代价函数，然后通过优化方法迭代求解出最优的模型参数，然后测试验证我们这个求解的模型的好坏。

3、逻辑回归损失函数推导及优化
https://blog.csdn.net/hahaha_2017/article/details/81065381

4、正则化与模型评估指标
正则化：正则化就是在损失函数后加上一个正则化项（惩罚项），其实就是常说的结构风险最小化策略，即经验风险（损失函数）加上正则化。一般模型越复杂，正则化值越大。
L1正则化（L1范数）指的是权重参数W的各项元素绝对值之和
L2（L2范数）权重参数W的各项元素的平方和的开方
线性回归模型，使用L1正则化的模型建叫做Lasso回归，使用L2正则化的模型叫做Ridge回归（岭回归）
L1正则化可以产生稀疏权重矩阵，即大部分w为0，只有少数w非0，可以用于特征选择

5、逻辑回归的优缺点

优点：1）适合需要得到一个分类概率的场景。2）计算代价不高，容易理解实现。在时间和内存需求上相当高效。它可以应用于分布式数据，并且还有在线算法实现，用较少的资源处理大型数据。3）对于数据中小噪声的鲁棒性很好，并且不会受到轻微的多重共线性的特别影响。
缺点：1）容易欠拟合，分类精度不高。2）数据特征有缺失或者特征空间很大时表现效果并不好。

6、样本不均衡问题解决办法

样本的过采样和欠采样。

使用多个分类器进行分类。

将二分类问题转换成其他问题。

改变正负类别样本在模型中的权重

sklearn参数
penalty=’l2’, 参数类型：str，可选：‘l1’ or ‘l2’, 默认: ‘l2’。该参数用于确定惩罚项的范数

dual=False, 参数类型：bool,默认：False。双重或原始公式。使用liblinear优化器，双重公式仅实现l2惩罚。

tol=0.0001, 参数类型：float，默认：e-4。停止优化的错误率

C=1.0, 参数类型：float，默认；1。正则化强度的导数，值越小强度越大。

fit_intercept=True, 参数类型：bool，默认：True。确定是否在目标函数中加入偏置。

intercept_scaling=1, 参数类型：float，默认：1。仅在使用“liblinear”且self.fit_intercept设置为True时有用。

class_weight=None, 参数类型：dict，默认：None。根据字典为每一类给予权重，默认都是1.

random_state=None, 参数类型：int，默认：None。在打乱数据时，选用的随机种子。

solver=’warn’, 参数类型：str，可选：{‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’}, 默认：liblinear。选用的优化器。

max_iter=100, 参数类型：int，默认：100。迭代次数。multi_class=’warn’, 参数类型：str，可选：{‘ovr’, ‘multinomial’, ‘auto’}，默认：ovr。如果选择的选项是’ovr’，那么二进制问题适合每个标签。对于“多项式”，最小化的损失是整个概率分布中的多项式损失拟合，即使数据是二进制的。当solver 　='liblinear’时，‘multinomial’不可用。如果数据是二进制的，或者如果solver =‘liblinear’，‘auto’选择’ovr’，否则选择’multinomial’。

verbose=0, 参数类型：int，默认：0。对于liblinear和lbfgs求解器，将详细设置为任何正数以表示详细程度。

warm_start=False, 参数类型：bool，默认：False。是否使用之前的优化器继续优化。

n_jobs=None，参数类型：bool，默认：None。是否多线程