模型函数介绍
Logistic Regression 虽然被称为回归,但其实际上是分类模型,并常用于二分类。Logistic Regression 因其简单、可并行化、可解释强深受工业界喜爱。
Logistic 回归的本质是:假设数据服从这个Logistic 分布,然后使用极大似然估计方法做参数的估计。
Logistic 分布是一种连续型的概率分布,其分布函数和密度函数分别为:
其中, 表示位置参数, 为形状参数。我们可以看下其图像特征:
在逻辑斯谛回归中,使用逻辑斯谛函数
然后用极大似然估计( maximum likelihood) 方法拟合模型 。
模型运用
我们运用 ISLR 库的 smarket (股旗市场)数据的数值和图像进行描述统计分析,来拟合逻辑斯蒂归模型。该数据集里包括了从 2001 年年初至 2005 年年末 1250 天里 S&P 500 股票指数的投资回报率。数据中记 录了过去 5 个交易日中的每个交易日的投资回报率,从 Lag1到 Lag5 ,同时也记录了 Volume (前一日股票成交量,单位为十亿) ,Today (当日的投资回报率)以及Direction (这些数据在市场的走势方向,或 Up (涨)或 Down (跌) )。
> library(ISLR)
> names(Smarket)
[1] "Year" "Lag1" "Lag2" "Lag3" "Lag4"
[6] "Lag5" "Volume" "Today" &