分类主要是预测分类标号(离散属性)
预测主要是简历连续值函数模型,预测给定自变量对应的因变量的值
logistics回归,因变量一般有1和0两种取值,是广义线性回归模型的特例,研究的是当y取“是”发生的概率p与自变量x1,x2…xp的关系
当自变量之间出现多重共线性时,用最小二乘估计的回归系数将会不准确
消除多重共线性的参数改进的估计方法主要有岭回归和主成分回归
logistics回归建模步骤
1、根据分析目的设置指标变量(因变量和自变量),然后收集数据,再进行筛选
2、列出回归方程
3、进行模型检验。正确率、混淆矩阵、ROC曲线、KS值等
4,、模型应用
特征筛选的方法
1、F检验
2、递归特征消除(RFE)
3、稳定性选择
#-*- coding: utf-8 -*-
import pandas as pd
filename='../data/xxx.xls'
data=pd.read_excel(filename)
x=data.iloc[:,:8].as_matrix()
y=data.iloc[:,8].as_matrix()
from sklearn.linear_model import logisticRegression as LR
from sklearn.linear_model import RandomizedlogisticsRegression
rlr=RLR() #建立随机逻辑回归模型
rlr.fit(x,y) #训练模型
rlr.get_support() #提取特征
print(u'筛选出来的特征为:%s'%','.join(data.columns[rlr.get_support()]))
x= data[data.columns[rlr.get_support()]].as_matrix()
lr=LR()
lr.fit(x,y)
print(u'模型的平均正确率为:%s' % lr.score(x,y)) #输出模型的平均正确率