利用Python进行数据挖掘(基础)

本文介绍了使用Python进行数据挖掘的基础知识,包括预测分类、主要的预测与分类算法如回归分析、决策树等。重点讲解了Logistic回归模型的构建、解释及其优势,并探讨了ID3算法在决策树中的应用。
摘要由CSDN通过智能技术生成

利用Python进行数据挖掘(基础)

预测

分类:预测分类指标(离散属性)——有监督学习
预测:建立连续值函数模型

主要分类与预测算法

  • 回归分析:线性回归、非线性回归、Logistic回归(因变量为0或1)、岭回归(自变量之间具有多重共线性)、主成分回归(自变量之间具有多重共线性)、偏最小二乘回归模型
  • 决策树
  • 人工神经网络
  • 贝叶斯网络
  • 支持向量机:通过非线性映射,把低维的非线性可分转换为高维的线性可分

Logistic回归

(1) Logistic函数
前提:因变量取1的概率为p,取0的概率为1-p。
优势比(odds):p/1-p
Logistic变换:Logit(p)=ln(1/(1-p))=z
Logistic函数:p=1/(1+e^(-z))

(2) Logistic回归模型
Logistic回归模型是建立ln(p/(1-p))与自变量的线性回归模型。
这里写图片描述

估计完系数之后要进行模型检验,模型有效性的检验指标有很多,最基本的有正确率,其次有混淆矩阵、ROC曲线、KS值

(3) 模型解释
这里写图片描述

这里写图片描述

import pandas as pd
import numpy as np
from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR

## step1:建立一张DataFrame和原始的x变量与y变量
data={
  '年龄':[41,27,40,41,24,41,27,40,41,24,41,27,40,41,24],
      '教育':[3,1,1,1,2,3,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值