Python数据分析与挖掘实战—挖掘建模

最新推荐文章于 2024-06-05 09:48:41 发布

呼噜娃娃

最新推荐文章于 2024-06-05 09:48:41 发布

阅读量3k

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/u012749168/article/details/71104531

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

常用的分类与预测算法

1回归模型分类

1线性回归---自变量因变量线性关系，最小二乘法求解

2非线性回归--自变量因变量非线性关系，函数变换为线性关系，或非线性最小二乘方法求解

3logistic回归--因变量一般有1和0两种取值，将因变量的取值范围控制再0-1范围内

4岭回归--自变量之间具有多重共线性

5主成分回归--自变量之间具有多重共线性

一般自变量和因变量之间存在线性关系的时候，就可以用线性回归的方法，而两者之间呈现的是某种曲线特性时，就用非线性回归，当自变量之间出现多重共线时，用最小二乘估计的回归系数不准确，则主要用岭回归和主成分回归法。此处的logistics回归属于概率性非线性回归，对于二分类问题，y只有是否两个值，1和0，在自变量x1，x2，x3作用下y取值为是的概率为p，取值为否的概率为1-p。

logistics回归 p=P(y=1|X)，取0概率是1-p，取1和取0的概率之比为p/1-p，成为事件的优势比odds，odds取对数得到Logistic变换Logit（p）=ln（p/1-p），再令Logit（p）=ln（p/1-p）=z ，则可以求出p=1/1+e^-z，则为Logistic函数。

p在0，1之间变换时，odds取值为0，+无穷，ln（p/1-p）的取值范围事-无穷，+无穷

logistics回归模型步骤

1根据挖掘目的设置特征，并筛选特征x1，x2...xp

使用sklearn中的feature_selection库，F检验来给出特征的F值和P值，筛选出F大的，p小的值。RFE（递归特征消除）和SS（稳定性选择）

2列出回归方程ln（p/1-p）=β0+β1x1+...+βpxp+e

3估计回归系数

4模型检验

5预测控制

随机逻辑回归进行特征筛选，逻辑回归进行模型训练评估

#-*-coding:utf-8-*-

import pandas as pd

filename='bankloan.xls'
data = pd.read_excel(filename)
x=data.iloc[:,:8].as_matrix()
y=data.iloc[:,8].as_matrix()

from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR
rlr = RLR()
rlr.fit(x,y)#训练模型
print rlr.get_support()#获取筛选结果
print rlr.scores_#获取评分
print ','.join(data.columns[rlr.get_support()])#有效特征为
x=data[data.columns[rlr.get_support()]].as_matrix() #筛选好特征
print x

lr = LR()
lr.fit(x,y)#训练模型
print(lr.score(x,y))#模型的平均正确率，使用训练样本测试

呼噜娃娃

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python数据分析与挖掘实战—挖掘建模

常用的分类与预测算法1回归模型分类1线性回归---自变量因变量线性关系，最小二乘法求解2非线性回归--自变量因变量非线性关系，函数变换为线性关系，或非线性最小二乘方法求解3logistic回归--因变量一般有1和0两种取值，将因变量的取值范围控制再0-1范围内4岭回归--自变量之间具有多重共线性5主成分回归--自变量之间具有多重共线性一般自变量和因变量之间存在线性关系的
复制链接

扫一扫