『Python数据分析与挖掘实战』第五章:挖掘建模

本文深入探讨了Python数据分析中的逻辑回归模型,指出其在变量筛选上的局限性,并提及非线性关系的变量筛选方法如决策树和神经网络。通过Keras进行神经网络实践,注意到因样本量不足导致的准确率问题。文章还介绍了模型预测效果评价的常见指标,如均方误差和识别准确度、精确率等。
摘要由CSDN通过智能技术生成
# coding:utf-8
"""
logistic 回归, 自动建模
"""
import pandas as pd

# 参数初始化
filename = r"C:\learning\DataMining\Book\Python_DataMining\Data\chapter5\demo\data\bankloan.xls"
data = pd.read_excel(filename)
x = data.iloc[:, : 8].as_matrix()     # 此处的 [:, : 8] 的意思是,切片所有的行和 1- 8列的数据  # 此处的 as_matrix 函数是
# 将数据框数据结构转换为使用数组的数据结构
print "x: \n", x
y = data.iloc[:, 8].as_matrix()    # 此处的 [:, 8] 的意思是, 切片所有的行和第 9 列 ,注:这里的数字实际上是第 n 列 - 1
print "y: \n", y

from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR

rlr = RLR()    # 建立随机逻辑回归模型,筛选变量 # 可以使用参数设置阈值: selection_threshold = 0.5 等

rlr.fit(x, y)  # 训练模型
rlr.get_support()    # 获取特征筛选结果,也可以通过 .scoress_方法获取各个特征的分数
print u"通过随机逻辑回归模型筛选特征结束"
print u"有效特征为: %s " % ",".join(data.columns[rlr.get_su
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值