逻辑回归

最新推荐文章于 2024-02-02 10:57:51 发布

lvsijiaanan

最新推荐文章于 2024-02-02 10:57:51 发布

阅读量283

点赞数

分类专栏：机器学习

机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

本文主要介绍了Logistic回归的基础知识，包括其与多重线性回归的关系、用途及Python中实现Logistic回归的常用库。Logistic回归常用于二分类问题，用于寻找危险因素并预测事件发生的概率。文中提到了利用pandas、statsmodels和numpy等库进行数据加载、统计摘要和模型拟合，并展示了如何处理虚拟变量。

摘要由CSDN通过智能技术生成

小白一个，总结文章，欢迎指正。

一、概述

logistic回归与多重线性回归实际上有很多相同之处，最大的区别就在于他们的因变量不同，其他的基本都差不多，正是因为如此，这两种回归可以归于同一个家族，即广义线性模型（generalized linear model）。这一家族中的模型形式基本上都差不多，不同的就是因变量不同，如果是连续的，就是多重线性回归，如果是二项分布，就是logistic回归，如果是poisson分布，就是poisson回归，如果是负二项分布，就是负二项回归，等等。只要注意区分它们的因变量就可以了。

logistic回归的因变量可以是二分类的，也可以是多分类的，但是二分类的更为常用，也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。

二、用途

寻找危险因素，预测某情况发生的概率，判别发生某情况的概率有多大

三、Python常用的算法包

numpy: Python的语言扩展，定义了数字的数组和矩阵

pandas: 直接处理和操作数据的主要package

statsmodels: 统计和计量经济学的package，包含了用于参数评估和统计测试的实用工具

pylab：用于生成统计图

四、常用代码

加载数据：

使用pandas.read_csv加载数据，这样我们就有了可用于探索数据的DataFrame

import pandas as pd

import statsmodels.api as sm

import pylab as pl

import numpy as np

#加载数据

df=pd.read_csv("网页链接")

print.df.head()

# admit gre gpa rank

统计摘要(Summary Statistics) 以及查看数据

现在我们就将需要的数据正确载入到Python中了，现在来看下数据。我们可以使用pandas的函数describe来给出数据的摘要–describe与R语言中的summay类似。这里也有一个用于计算标准差的函数std，但在describe中已包括了计算标准差。

pandas的pivot_table/crosstab聚合功能。crosstab可方便的实现多维频率表(frequency tables)(有点像R语言中的table)。你可以用它来查看不同数据所占的比例。

# summarize the data

print df.describe()

# 查看每一列的标准差

print df.std()

#频率表，表示prestige与admin的值相应的数量关系

print pd.crosstab(df['aadmit']，df[''prestige],rownames=['admit'])

# plot all of the columns

df.hist()

pl.show()

虚拟变量(dummy variables)

虚拟变量，也叫哑变量，可用来表示分类变量、非数量因素可能产生的影响。在计量经济学模型，需要经常考虑属性因素的影响。例如，职业、文化程度、季节等属性因素往往很难直接度量它们的大小。只能给出它们的“Yes—D=1”或”No—D=0”，或者它们的程度或等级。为了反映属性因素和提高模型的精度，必须将属性因素“量化”。通过构造0-1型的人工变量来量化属性因素。

pandas提供了一系列分类变量的控制。我们可以用get_dummies来将”prestige”一列虚拟化。

get_dummies为每个指定列创建了新的带二分类预测变量的DataFrame。

# 将prestige设为虚拟变量

dummy_ranks=pd.get_dummies(df['prestige'],prefix='prestige')

print dummy_ranks.head()

# 为逻辑回归创建所需的data frame

# 除admit、gre、gpa外，加入了上面常见的虚拟变量（注意，引入的虚拟变量列数应为虚拟变量总列数减1，减去的1列作为基准）

cols_to_keep=['admit','gre','gpa']

data=df[cols_to_keep].join(dummy_ranks.ix[:,'prestige_2':])

print data.head()

# 需要自行添加逻辑回归所需的intercept变量

data['intercept']=1.0