利用Python进行数据挖掘(基础)
预测
分类:预测分类指标(离散属性)——有监督学习
预测:建立连续值函数模型
主要分类与预测算法
- 回归分析:线性回归、非线性回归、Logistic回归(因变量为0或1)、岭回归(自变量之间具有多重共线性)、主成分回归(自变量之间具有多重共线性)、偏最小二乘回归模型
- 决策树
- 人工神经网络
- 贝叶斯网络
- 支持向量机:通过非线性映射,把低维的非线性可分转换为高维的线性可分
Logistic回归
(1) Logistic函数
前提:因变量取1的概率为p,取0的概率为1-p。
优势比(odds):p/1-p
Logistic变换:Logit(p)=ln(1/(1-p))=z
Logistic函数:p=1/(1+e^(-z))
(2) Logistic回归模型
Logistic回归模型是建立ln(p/(1-p))与自变量的线性回归模型。
估计完系数之后要进行模型检验,模型有效性的检验指标有很多,最基本的有正确率,其次有混淆矩阵、ROC曲线、KS值
(3) 模型解释
import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR
## step1:建立一张DataFrame和原始的x变量与y变量
data={
'年龄':[41,27,40,41,24,41,27,40,41,24,41,27,40,41,24],
'教育':[3,1,1,1,2,3,