数据挖掘模型——逻辑回归模型——python代码

蕊在花中羞涩

已于 2024-06-05 09:54:54 修改

阅读量305

点赞数 3

分类专栏：数据挖掘 python基础文章标签：数据挖掘逻辑回归 python

于 2024-06-05 09:52:49 首次发布

本文链接：https://blog.csdn.net/R418520/article/details/139462120

版权

数据挖掘同时被 2 个专栏收录

18 篇文章 0 订阅

订阅专栏

python基础

16 篇文章 0 订阅

订阅专栏

利用Scikit-Learn逻辑回归分析步骤：

首先，进行特征筛选，

特征筛选方法：

　　a:通过F检验给出各个特征的F值和p值，筛选变量（选择F值大或p值小的特征）；

　　b:递归特征消除：主要思想是反复构建模型，选出最好的（最差的）特征（可根据系数来选），将选出的特征放在一边，在剩余的特征里重复这个过程，直至遍历所有特征。

　　该过程中特征被消除的次序即是：特征的排序。因此，也是一种寻找最优特征子集的贪心算法。

　　c:稳定性：一种基于二次抽样和选择算法相结合较新的方法，主要思想是：在不同的数据子集和特征的子集上运行特征选择算法，不断重复，最终汇总特征选择结果。

然后，利用筛选后的特征建立逻辑回归模型，输出平均正确率

#-*- coding: utf-8 -*-
#逻辑回归 自动建模
import pandas as pd

#参数初始化
filename = '../data/bankloan.xls'
data = pd.read_excel(filename)
x = data.iloc[:,:8].as_matrix()
y = data.iloc[:,8].as_matrix()

from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR 
rlr = RLR() #建立随机逻辑回归模型，筛选变量
rlr.fit(x, y) #训练模型
rlr.get_support() #获取特征筛选结果，也可以通过.scores_方法获取各个特征的分数
print(u'通过随机逻辑回归模型筛选特征结束。')
print(u'有效特征为：%s' % ','.join(data.columns[rlr.get_support()]))
x = data[data.columns[rlr.get_support()]].as_matrix() #筛选好特征

lr = LR() #建立逻辑货柜模型
lr.fit(x, y) #用筛选后的特征数据来训练模型
print(u'逻辑回归模型训练结束。')
print(u'模型的平均正确率为：%s' % lr.score(x, y)) #给出模型的平均正确率，本例为81.4%

蕊在花中羞涩

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘模型——逻辑回归模型——python代码

b:递归特征消除：主要思想是反复构建模型，选出最好的（最差的）特征（可根据系数来选），将选出的特征放在一边，在剩余的特征里重复这个过程，直至遍历所有特征。c:稳定性：一种基于二次抽样和选择算法相结合较新的方法，主要思想是：在不同的数据子集和特征的子集上运行特征选择算法，不断重复，最终汇总特征选择结果。该过程中特征被消除的次序即是：特征的排序。因此，也是一种寻找最优特征子集的贪心算法。a:通过F检验给出各个特征的F值和p值，筛选变量（选择F值大或p值小的特征）；
复制链接

扫一扫