逻辑回归

逻辑回归介绍

逻辑回归其实用于二分分类问题,用于判断一个离散性的特征得到的标签类型的概率。举个例子,你是否喜欢一首歌是通过很多这个歌的特征(如节奏、强度等)来判断的,那么我们的数据集就是各种歌的特征,而返回的结果则是一个非1即0,不是喜欢就是不喜欢的结果。

实例展示

根据逻辑回归,分析银行违约客户的各项特征,推测某一客户违约的情况。

操作步骤

1.首先打开终端模拟器,输入下面命令:

cd /  
jupyter notebook --ip='127.0.0.1'  

2.切换到/data目录下,点击New,在其下拉框中选择folder
选中刚才创建的文件夹,点击页面左上角的【Rename】重命名为logic
3.切换到logic目录下,新建一个ipynb文件,用于编写并执行代码。点击页面右上角的New,选中【Python3】
新建ipynb文件如下所示,在此可以编写代码了
4.逻辑回归
逻辑回归用于二分分类问题,回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。
(1)业务理解
某银行违约客户信息表如下:(这里只展示了部分数据)我们通过银行客户资料违约情况表来做逻辑回归分析,其中的年龄、教育、工龄、地址、收入、 负债率、信用卡负债、其他负债就是获取自变量x,即特征数据,判断是否违约就相当于获取因变量y,即预测分类。
(2)获取数据并读取数据
2.1.打开linux终端,下载所需资源
2.2在刚才新建的ipynb文件中,编写代码,读取数据

1.#导入pandas库和numpy库  
2.import pandas as pd  
3.import numpy as np  
4.#读取loandata.xls  
5.data= pd.read_excel('loandata.xls')  
6.#读取前五行数据,如果是最后五行,用df_women.tail()  
7.data.head()  

(3)数据理解
3.1.查看数据结构

data.shape 

3.2.查看数据列名称

data.columns  

说明:loandata.xls中列名称为:‘年龄’‘教育’‘工龄’‘地址’‘收入’‘负债率’‘信用卡负债’‘其他负债’’违约‘

(4)数据准备
数据准备就是获得特征数据和预测分类
4.1.删除’违约‘这一列数据得到特征数据

X_Data = data.drop(['违约'],axis=1)  
X_Data.head()  

4.2.获取’违约‘这列数据得到预测分类

y_data = np.ravel(data[['违约']])  
y_data[0:5]  

(5)随机逻辑回归模型
5.1.训练模型
fit(X, y) Fit the model using X, y as training data.
x:array-like, Training samples 训练样本
y: array-like, Target values 目标值,如果需要的话可以转换为训练样本的数据类型.

from sklearn.linear_model import RandomizedLogisticRegression as RLR   
rlr = RLR()  
#训练模型  
rlr.fit(X_Data,y_data)  

5.2. 获取特征筛选结果
get_support([indices=False]) 获取所选列的掩码或整数索引
参数说明:indices:boolean,默认False
返回值:从特征向量中选择保留特征的索引。
如果indices为False,则这是一个布尔数组[#输入要素],如果为其保留选择了其对应的特征,则元素为True
如果indices为True,则这是一个整形数组[#输出要素],其值是输入要素向量中的索引

rlr.get_support()  

5.3.获得score值
score(X, y[, sample_weight]) 返回给定测试数据和标签的平均精度

rlr.scores_  

6)训练模型
6.1.创建新的特征矩阵

X2_data = data.drop(['年龄','教育','收入','其他负债','违约'],axis=1)  
X2_data.head()  

6.2.建立训练数据和测试数据
train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取训练数据(train)和测试数据(test)
第1个参数:所要划分的样本特征
第2个参数:所要划分的样本标签
random_state:它的用途是在随机划分训练集和测试集时候,划分的结果并不是那么随机,也即,确定下来random_state是某个值后,重复调用这个函数,划分结果是确定的

1.from sklearn.model_selection import  train_test_split  
2.X_train,X_test,y_train,y_test = train_test_split(X2_data,y_data,random_state=1)  
3.print(X_train.shape)  
4.print(X_test.shape)  

6.3.进行逻辑训练

1.#导入逻辑回归包  
2.from sklearn.linear_model import LogisticRegression  
3.# 创建模型:逻辑回归  
4.lr = LogisticRegression()  
5.#训练模型  
6.lr.fit(X_train , y_train)  

6.4.查看训练模型参数

#训练模型自变量参数  
lr.coef_  
#训练模型截距  
lr.intercept_ 

6.5.预测数据
使用模型的predict方法对划分的X测试数据可以进行预测得值“违约”情况

lr.predict(X_test)  

(7)模型评价
我们使用“准确率"来评估模型:

lr.score(X_test,y_test)  

得到的结果准确率为0.834。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值