logistic回归
- 原理
- 虽然其名称为回归,但实际上用于分类的模型
- 寻找最佳的参数ceita能够,使得z能够拟合x和y之间的关系
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pFrkh9Ax-1682062510810)(data/user-data/509837/images/053027404c86dd981f48cc66739470b4.png)]
- 将得到的z放入到sigmoid函数中,将最后的结果放入到0,1内,接近于0则被分类为0,接近于1则被分类为1(以此将回归问题转化为分类问题)
- 适用于
- 对线性关系的拟合
- 对于非线性关系拟合效果较差
- 优势
- 对线性关系拟合效果好
- 计算速度快
- 最后返回的结果不是固定的0,1,以概率的形式呈现,对数据适应性强
- 既可以处理二分类问题,也可以处理多分类问题
- 参数
- penalty
- 选项
- ’l1’
- 表示在损失函数后加l1范式,其会使得一些不重要的参数清零
- 参数solver仅能够使用求解方式”liblinear"和"saga“
- ‘l2’
- 在损失函数后加l2范式,默认选项,对于不重要的参数只会被归为特别小的值,不会出现0的情况
- 参数solver中所有的求解方式都可以使用。
- ’l1’
- 用途
- 正则化,用来防止模型过拟合
- 选项
- C
- 默认值1.0,必须为大于0的浮点数
- 用途
- 用来界定正则化的强度,C月越小,损失函数占比越小,范数的比例越大,正则化效果越强
- max_iter
- 最大迭代次数
- 若率先找到最小值,即使最大迭代次数没用完也依然会停止
- multi_class
- 选项
- ‘ovr’
- 某种类型为1,其余均为0,默认选项
- “Multinominal”
- 多种类型为1,多种类型为0
- “auto”
- 表示会根据数据的分类情况和其他参数来确定模型要处理的分类问题的类型。比如说,如果数据是二分类,或者solver的取值为"liblinear",“auto"会默认选择"ovr”。反之,则会选择"nultinomial"。
- ‘ovr’
- 用途
- 告诉模型我们需要对数据进行怎么样的分类
- 选项
- solver
- 选项
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y0qHASmD-1682062510812)(data/user-data/509837/images/6e1409c10a116343e92ba4fb1aba35d1.png)]
- 用途
- 选择分类时候使用的分类器
- 选项
- class_weight
- 选项
- balanced
- 用途
- 当分类样本类别的数目相差悬殊,则需要的样本进行均衡,给予少量标签更多的权重
- 选项
- 特征选择
- 嵌入法embedded
- from sklearn.feature_selection import SelectFromModel
- X_embedded = SelectFromModel(LR_,norm_order=1).fit_transform(data.data,data.target)
- SelectFromModel(模型,选择特征的依据)
- 参数
- 模型–填入模型名称、
- norm_order
- 使用范式1还是2,不填默认为2
- threshold
- 范式为2,填入threshold = x,表示参数阈值的特征(贡献不重要的)
- X_embedded = SelectFromModel(LR_,threshold=i).fit_transform(data.data,data.target)
- 参数
- SelectFromModel(模型,选择特征的依据)
- X_embedded直接为x用
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3mntuIxS-1682062510813)(data/user-data/509837/images/95bfe9b876dac6369f3f84bb32c55012.png)]
- 其他
- 业务能力
- PCA/SVD
- 使得最后的结果丧失可解释性,一般不用
- 统计学方法
- 嵌入法embedded
- penalty
- 接口
- coef_
- 返回x对应的参数,即重要性
- coef_
- 实现和调参
- C:\Users\24447\Desktop\abc\05逻辑回归与评分卡\Logistic_Regression