小瓜讲机器学习——分类算法(一)logistic regression(逻辑回归)算法原理详解

0. 引言

0.1 分类是什么?

“脑袋大脖子粗,不是大官就伙夫”应该是再中华大地上流传最为广泛最为浅显易懂的分类算法。所谓人以类聚,物以群分,后半句话其实就是分类的朴素主义解释和应用。
以下给出分类稍微严谨一点的朴素定义。

分类:按照某种方案将事物分门别类的划拨到不同群体(指定集合),贴上相应的标签的方法。

二分类:如果群体(指定集合)只有两种,我们叫这类问题为二分类问题
多分类:如果群体(指定集合)多于两种,我们叫这类问题为多分类问题。

单独提一个二分类主要是由于在实际应用中二分类占了很大的百分比。

0.2 分类在哪用?

分类的应用场景非常广泛,比如

  1. 通过关键词判定是否为垃圾邮件
  2. 通过调查买房人的征信记录判定是否放贷
  3. 通过打听女神的兴趣爱好追星判定我是否合女神口味
  4. 通过计算应力应变来判定结构是否安全
  5. 通过动物特征来判断该动物属于哪个门哪个目
  6. 以及字体识别等等 等等 等等 等等
0.3 分类算法有哪些?

分类的算法众多,主要有以下几种:

  1. 逻辑回归(Logistic Regression)
  2. K-近邻法(K-Nearest Neighbor)
  3. 支持向量机(Support Vector Machine)
  4. 决策树(Decision Tree)
  5. 神经网络(Natural Network)
  6. 朴素贝叶斯(Naive Bayes)
  7. 等等

本节主要介绍逻辑回归分类的算法原理。

1. logistic回归算法原理

逻辑回归虽然名字挂着回归,但的确是一种分类算法,而且是只能解决二分类问题中线性可分的那部分问题。我们看下面的几个例子:



显然图1.1~图1.3都是属于二分类的问题,所有的样本点要么是归为⚪点,要么归为十字点,只有两种分类结果,两种标签可以贴(⚪点也许表示是垃圾邮件,十字点表示不是垃圾邮件)。
但是图1.1与图1.2、1.3有着显著的区别,图1.1可以被超平面(注①) ∑ ω i X i + b = 0 \sum \omega_i{X_i}+b=0 ωiXi+b=0所分割,所以把图1.1叫做线性可分,而图1.2、1.3不能,图1.2、1.3的叫做非线性可分。

Logistic Regression—逻辑回归法主要就是解决类似图1.1的线性可分的二分类问题。

1.1 逻辑回归模型推导

我们先引入一个二分类问题:
小明在YY中学上高一(3)班上学,对于每一位走读学生,设他的迟到概率为 P i { Z = 迟 到 } P_i\{Z=迟到\} Pi{Z=},那么 P i P_i Pi肯定与学生离学校距离 L i L_i Li和每天出门时间 T i T_i Ti有关。
那么小明迟到发生比(优势比
o d d s = P i { Z = 迟 到 } P i { Z = 不 迟 到 } = P i { Z = 迟 到 } 1 − P i { Z = 迟 到 } odds = \frac{P_i\{Z=迟到\}}{P_i\{Z=不迟到\}}=\frac{P_i\{Z=迟到\}}{1-P_i\{Z=迟到\}} odds=Pi{Z=}Pi{Z=}=1Pi{Z=}Pi{Z=}
我们观察 o d d s odds odds P i { Z = 迟 到 } P_i\{Z=迟到\} Pi{Z=}的变化趋势如下图
在这里插入图片描述
显然随着 P i P_i Pi的增加, o d d s odds odds增加的越快,那么我们不难联想 o d d s odds odds可以用指数函数拟合,即有
o d d s = e g ( P i ) = e f ( L i , T i ) odds=e^{g(P_i)} = e^{f(L_i,T_i)} odds=eg(Pi)=ef(Li,Ti)
转变形式,可得以下拟合方案:
l n ( o d d s ) = f ( L i , T i ) ln(odds)=f(L_i,T_i) ln(odds)=f(Li,Ti)
那么如果 f ( L i , T i ) f(L_i,T_i) f(Li,Ti)采用一次多项式拟合,其实上式就和一般的线性回归方程一样。
l n ( o d d s ^ ) = α + β i L i + γ i T i = α + ∑ ω i X i ln(\hat {odds}) = \alpha+\beta_iL_i+\gamma_iT_i=\alpha+\sum\omega_iX_i ln(odds^)=α+βiLi+γiTi=α+ωiXi
值得注意的点是 o d d s ^ \hat{odds} odds^ o d d s odds odds的拟合值。拟合值可以推出 P i ^ \hat {P_i} Pi^的表达式如下
P i ^ 1 − P i ^ = e ( α + ∑ ω i X i ) \frac{\hat {P_i}}{1-\hat {P_i}}=e^{(\alpha+\sum{\omega_iX_i})} 1Pi^Pi^=e(α+ωiXi)
1 P i ^ − 1 = e − ( α + ∑ ω i X i ) \frac{1}{\hat {P_i}}-1=e^{-(\alpha+\sum{\omega_iX_i})} Pi^11=e(α+ωiXi)
P i ^ = 1 1 + e − ( α + ∑ ω i X i ) \hat {P_i}=\frac {1}{1+e^{-(\alpha+\sum{\omega_iX_i})}} Pi^=1+e(α+ωiXi)1
值得注意的是 P i ^ \hat {P_i} Pi^ P i P_i Pi的拟合值(近似值)。

1.2 逻辑回归模型的意义

我们以图1.1为例,在其中添加超平面 Ω \Omega Ω作为分界面

图中假设十字点为事件发生,z=1,⚪点为事件不发生,z=0,超平面 Ω : α + ∑ ω i X i = 0 \Omega:\alpha+\sum{\omega_iX_i}=0 Ω:α+ωiXi=0, 那么对于已知的事件集 A = { 十 字 点 , ⚪ 点 } A=\{十字点,⚪点\} A={}里面的元素,有事件发生的概率函数:
f ( z ) = { 1 , 元 素 在 超 平 面 Ω 上 方 时 0 , 元 素 在 超 平 面 Ω 另 一 边 时 f(z)=\begin{cases}1,元素在超平面\Omega上方时\\0,元素在超平面\Omega另一边时\end{cases} f(z)={1,Ω0,Ω


逻辑回归模型其实可以理解为(等效于)用 f ^ ( z ) = 1 1 + e − ( α + ∑ ω i X i ) \hat f(z)=\frac{1}{1+e^{-(\alpha+\sum{\omega_iX_i})}} f^(z)=1+e(α+ωiXi)1来拟合 f ( z ) f(z) f(z)
注意到对于一个样本点 ( X i ( j ) , Z ( j ) ) (X_i^{(j)},Z^{(j)}) (Xi(j),Z(j))来说,当 g ( X i ) = α + ∑ ω i X i &gt; 0 g(X_i)=\alpha+\sum{\omega_iX_i}&gt;0 g(Xi)=α+ωiXi>0时,表示样本点在十字点那侧,当 g ( X i ) = α + ∑ ω i X i &lt; 0 g(X_i)=\alpha+\sum{\omega_iX_i}&lt;0 g(Xi)=α+ωiXi<0时,表示样本点在⚪点那侧。

1.2 损失函数(评价函数)怎么定义?

还以小明班级上学迟到为例,假设小明同学——高一(3)班的所有学生都是各自上学的,所以学生迟到的概率 P i P_i Pi都是独立的,假设Z=1是迟到的等价概念,那么对于某一学生,有
迟到的概率: P i { Z = 1 } = p i P_i\{Z=1\} = p_i Pi{Z=1}=pi
不迟到的概率: P i { Z = 0 } = 1 − P i { Z = 1 } = 1 − p i P_i\{Z=0\}=1-P_i\{Z=1\} = 1-p_i Pi{Z=0}=1Pi{Z=1}=1pi
其实Z就是概率统计中的伯努利随机变量,那么其频率函数可以写成以下形式:
p ( Z ) = { p i Z ( 1 − p i ) 1 − Z , Z = 0 o r Z = 1 0 p(Z) = \begin {cases} p_i^Z(1-p_i)^{1-Z} ,Z=0 or Z=1\\ 0 \end{cases} p(Z)={piZ(1pi)1Z,Z=0orZ=10
p i p_i pi的拟合值( P i ^ = 1 1 + e − ( α + ∑ ω i X i ) \hat {P_i}=\frac {1}{1+e^{-(\alpha+\sum{\omega_iX_i})}} Pi^=1+e(α+ωiXi)1)代入可得
p ^ i ( Z ; α , ω i ) = 1 1 + e − ( α + ∑ ω i X i ) Z ( 1 − 1 1 + e − ( α + ∑ ω i X i ) ) 1 − Z \hat p_i(Z;\alpha,\omega_i)=\frac {1}{1+e^{-(\alpha+\sum{\omega_iX_i})}}^Z(1-\frac {1}{1+e^{-(\alpha+\sum{\omega_iX_i})}})^{1-Z} p^i(Zα,ωi)=1+e(α+ωiXi)1Z(11+e(α+ωiXi)1)1Z
值得注意的是 p ^ i ( Z ; α , ω i ) \hat p_i(Z;\alpha,\omega_i) p^i(Zα,ωi) p i ( Z ) p_i(Z) pi(Z)的拟合值(近似值),它的变量为 ( Z ; α , ω i ) (Z;\alpha,\omega_i) (Zα,ωi)

当知道其中m个学生迟到与否,即有m个样本 { ( X 1 ( 1 ) , X 2 ( 1 ) , Z ( 1 ) ) , . . . , ( X 1 ( m ) , X 2 ( m ) , Z ( m ) ) } \{(X_1^{(1)},X_2^{(1)},Z^{(1)}),...,(X_1^{(m)},X_2^{(m)},Z^{(m)})\} {(X1(1),X2(1),Z(1)),...,(X1(m),X2(m),Z(m))}
我们可以用最大似然估计方法(maximum likelihood estimate method)估计出一组参数 ( α , ω i ) (\alpha,\omega_i) (α,ωi)

最大似然估计方法

对于每一个同学迟到与否是独立的,并且频率分布为 p ^ i ( Z ( i ) ; α , ω i ) \hat p_i(Z^{(i)};\alpha,\omega_i) p^i(Z(i)α,ωi),那么m个同学迟到与否的联合频率分布为 L ( Z ; α , ω i ) = ∏ i = 0 m p ^ i ( Z ( i ) ; α , ω i ) L(Z;\alpha,\omega_i) = \prod_{i=0}^m\hat p_i(Z^{(i)};\alpha,\omega_i) L(Zα,ωi)=i=0mp^i(Z(i)α,ωi)
对于m个样本代入的情况下, L ( Z ; α , ω i ) L(Z;\alpha,\omega_i) L(Zα,ωi)是参数 ( α , ω i ) (\alpha,\omega_i) (α,ωi)的函数,当一组参数 ( α , ω i ) (\alpha,\omega_i) (α,ωi)使得 L ( Z ; α , ω i ) L(Z;\alpha,\omega_i) L(Zα,ωi)取最大值,这一组参数 ( α , ω i ) (\alpha,\omega_i) (α,ωi)就是估计的参数。即:
( α , ω i ) → max ⁡ ( α , ω i ) [ L ( Z ; α , ω i ) ] (\alpha,\omega_i)\to \max_{(\alpha,\omega_i)} [ L(Z;\alpha,\omega_i)] (α,ωi)(α,ωi)max[L(Zα,ωi)]
(意思就是对于m个样本点,其观测结果(取样结果)为 Γ \Gamma Γ,我们通过变化参数 ( α , ω i ) (\alpha,\omega_i) (α,ωi)使得在相应的m个样本点上最大可能性出现观测结果 Γ \Gamma Γ,这组 ( α , ω i ) (\alpha,\omega_i) (α,ωi)就是通过最大似然估计得到的参数)

观察到上面的公式过于复杂,我们可以通过变换将其简化如下,我们称之为逻辑回归法的损失函数(评价函数)。
( α , ω i ) → min ⁡ ( α , ω i ) [ − ln ⁡ L ( Z ; α , ω i ) ] (\alpha,\omega_i)\to \min_{(\alpha,\omega_i)}[-\ln L(Z;\alpha,\omega_i)] (α,ωi)(α,ωi)min[lnL(Zα,ωi)]
− ln ⁡ L ( Z ; α , ω i ) = − ln ⁡ { ∏ i = 1 m p ^ i ( Z ( i ) ; α , ω i ) } = − ∑ i = 1 m ln ⁡ p ^ i ( Z ( i ) ; α , ω i ) = − ∑ i = 1 m ln ⁡ 1 1 + e − ( α + ∑ ω j X j ( i ) ) Z ( i ) ( 1 − 1 1 + e − ( α + ∑ ω j X j ( i ) ) ) 1 − Z ( i ) = − ∑ i = 1 m { Z ( i ) ln ⁡ [ 1 1 + e − ( α + ∑ ω j X j ( i ) ) ] + ( 1 − Z ( i ) ) ln ⁡ [ 1 − 1 1 + e − ( α + ∑ ω j X j ( i ) ) ] } \begin {aligned} -\ln L(Z;\alpha,\omega_i) &amp; = -\ln\{ \prod_{i=1}^m\hat p_i(Z^{(i)};\alpha,\omega_i)\}\\ &amp;=-\sum_{i=1}^{m}\ln\hat p_i(Z^{(i)};\alpha,\omega_i)\\ &amp;=-\sum_{i=1}^{m}\ln\frac {1}{1+e^{-(\alpha+\sum{\omega_jX_j^{(i)}})}}^{Z^{(i)}}(1-\frac {1}{1+e^{-(\alpha+\sum{\omega_jX_j^{(i)}})}})^{1-Z^{(i)}}\\ &amp;=-\sum_{i=1}^m\{Z^{(i)}\ln[\frac{1}{1+e^{-(\alpha+\sum\omega_jX_j^{(i)})}}]+(1-Z^{(i)})\ln[1-\frac{1}{1+e^{-(\alpha+\sum\omega_jX_j^{(i)})}}]\} \end{aligned} lnL(Zα,ωi)=ln{i=1mp^i(Z(i)α,ωi)}=i=1mlnp^i(Z(i)α,ωi)=i=1mln1+e(α+ωjXj(i))1Z(i)(11+e(α+ωjXj(i))1)1Z(i)=i=1m{Z(i)ln[1+e(α+ωjXj(i))1]+(1Z(i))ln[11+e(α+ωjXj(i))1]}
h ( ω ) ( i ) = 1 1 + e − ( α + ∑ ω j X j ( i ) ) h(\omega)^{(i)}=\frac{1}{1+e^{-(\alpha+\sum\omega_jX_j^{(i)})}} h(ω)(i)=1+e(α+ωjXj(i))1
那么上式为:
− ln ⁡ L ( Z ; α , ω i ) = − ∑ i = 1 m { Z ( i ) ln ⁡ [ h ( ω ) ( i ) ] − ( 1 − Z ( i ) ) ln ⁡ [ 1 − h ( ω ) ( i ) ] } -\ln L(Z;\alpha,\omega_i) =-\sum_{i=1}^m\{Z^{(i)}\ln[h(\omega)^{(i)}]-(1-Z^{(i)})\ln[1-h(\omega)^{(i)}]\} lnL(Zα,ωi)=i=1m{Z(i)ln[h(ω)(i)](1Z(i))ln[1h(ω)(i)]}
这样就等于把问题转换为损失函数的极值问题(典型的无约束优化问题)。

1.3 极值问题怎么求解?

逻辑回归分类法最终要求解的损失函数的极值问题(无约束优化问题)。
( α , ω i ) → min ⁡ ( α , ω i ) [ f ( α , ω i ) ] (\alpha,\omega_i)\to \min_{(\alpha,\omega_i)}[f(\alpha,\omega_i)] (α,ωi)(α,ωi)min[f(α,ωi)]
求解极值问题的方法有很多种,梯度下降法是最常用且简洁的算法。他的内涵思想就是从起始点 ( α , ω i ) t ∣ 0 (\alpha,\omega_i)_{t|0} (α,ωi)t0开始沿着 f ( α , ω i ) f(\alpha,\omega_i) f(α,ωi)值减小的方法搜索 ( α , ω i ) t ∣ j (\alpha,\omega_i)_{t|j} (α,ωi)tj,直到满足精度要求或者迭代步数要求。

正梯度是 f ( α , ω i ) f(\alpha,\omega_i) f(α,ωi)增加的方向,负梯度是 f ( α , ω i ) f(\alpha,\omega_i) f(α,ωi)减小方向。所以叫梯度下降法,具体算法流程如下:

  1. 选定初始值 ( α , ω i ) t ∣ 0 (\alpha,\omega_i)_{t|0} (α,ωi)t0
  2. 选择迭代步长 η \eta η,精度 δ 0 \delta_0 δ0以及迭代次数限 T 0 T_0 T0
  3. 重复以下计算过程
    ① 计算负梯度: d t ∣ j = − ∂ ∂ ( α , ω i ) f ( α , ω i ) t ∣ j d_{t|j}=-\frac{\partial}{\partial(\alpha,\omega_i)}f(\alpha,\omega_i)_{t|j} dtj=(α,ωi)f(α,ωi)tj
    ② 更新参数: ( α , ω i ) t ∣ j + 1 = ( α , ω i ) t ∣ j + d t ∣ j × η (\alpha,\omega_i)_{t|j+1}=(\alpha,\omega_i)_{t|j}+d_{t|j}\times\eta (α,ωi)tj+1=(α,ωi)tj+dtj×η
    ③ 检验是否满足迭代要求: ( 1 ) δ = ∣ d t ∣ j × η ∣ &lt; δ 0 或 ( 2 ) t ∣ j &gt; T 0 (1) \delta = |d_{t|j}\times\eta|&lt;\delta_0或(2) t|j&gt;T_0 (1)δ=dtj×η<δ0(2)tj>T0
  4. 满足迭代要求即终止计算,输出最终 ( α , ω i ) t ∣ f i n a l (\alpha,\omega_i)_{t|final} (α,ωi)tfinal
1.4 逻辑回归算法

将极值问题的求解步骤具体应用与逻辑回归算法中,并将 ( α , ω i ) , i = 1 , . . . , l (\alpha, \omega_i),i=1,...,l (α,ωi),i=1,...,l合并成 W = ( ω 0 , ω 1 , . . . , ω l ) W=(\omega_0,\omega_1,...,\omega_l) W=(ω0,ω1,...,ωl)相应将特征向量扩展的 X = ( 1 , x 1 , . . . , x l ) X=(1,x_1,...,x_l) X=(1,x1,...,xl)
d i = − ∂ ∂ ω i f ( ω i ) = − ∂ ( − ln ⁡ L ( Z ; ω i ) ) ∂ ω i = ∑ k = 1 m [ Z ( k ) 1 h ( ω ) ( k ) ∙ ∂ h ( ω ) ( k ) ∂ ω i + ( 1 − Z ( k ) ) 1 1 − h ( ω ) ( k ) ∙ ∂ ( 1 − h ( ω ) ( k ) ) ∂ ω i ] = ∑ k = 1 m [ Z ( k ) ( 1 + e − ∑ ω i X i ( k ) ) ∙ − X i ( k ) e − ∑ ω i X i ( k ) ( 1 + e − ∑ ω i X i ( k ) ) 2 + ( 1 − Z ( k ) ) 1 + e − ∑ ω i X i ( k ) e − ∑ ω i X i ( k ) ] ∙ ( − − X i ( k ) e − ∑ ω i X i ( k ) ( 1 + e − ∑ ω i X i ( k ) ) 2 ) = ∑ k = 1 m [ Z ( k ) − X i ( k ) e − ∑ ω i X i ( k ) ( 1 + e − ∑ ω i X i ( k ) ) + ( 1 − Z ( k ) ) X i ( k ) 1 + e − ∑ ω i X i ( k ) ] = ∑ k = 1 m Z ( k ) X i ( k ) − e − ∑ ω i X i ( k ) − 1 1 + e − ∑ ω i X i ( k ) + X i ( k ) 1 1 + e − ∑ ω i X i ( k ) = ∑ k = 1 m X i ( k ) ( h ( ω ) ( k ) − Z ( k ) ) \begin{aligned}d_i&amp;=-\frac{\partial}{\partial\omega_i}f(\omega_i)\\ &amp;=-\frac{\partial(-\ln L(Z;\omega_i))}{\partial\omega_i}\\ &amp;=\sum_{k=1}^m[Z^{(k)}\frac{1}{h(\omega)^{(k)}}\bullet\frac{\partial h(\omega)^{(k)}}{\partial\omega_i}+(1-Z^{(k)})\frac{1}{1-h(\omega)^{(k)}}\bullet\frac{\partial (1-h(\omega)^{(k)})}{\partial\omega_i}]\\ &amp;=\sum_{k=1}^m[Z^{(k)}(1+e^{-\sum\omega_iX_i^{(k)}})\bullet\frac{-X_i^{(k)}e^{-\sum\omega_iX_i^{(k)}}}{(1+e^{-\sum\omega_iX_i^{(k)}})^2}\\ &amp;\qquad +(1-Z^{(k)})\frac{1+e^{-\sum\omega_iX_i^{(k)}}}{e^{-\sum\omega_iX_i^{(k)}}}]\bullet(-\frac{-X_i^{(k)}e^{-\sum\omega_iX_i^{(k)}}}{(1+e^{-\sum\omega_iX_i^{(k)}})^2})\\ &amp;=\sum_{k=1}^m[Z^{(k)}\frac{-X_i^{(k)}e^{-\sum\omega_iX_i^{(k)}}}{(1+e^{-\sum\omega_iX_i^{(k)}})}+(1-Z^{(k)})\frac{X_i^{(k)}}{1+e^{-\sum\omega_iX_i^{(k)}}}]\\ &amp;=\sum_{k=1}^mZ^{(k)}X_i^{(k)}\frac{-e^{-\sum\omega_iX_i^{(k)}}-1}{1+e^{-\sum\omega_iX_i^{(k)}}}+X_i^{(k)}\frac{1}{1+e^{-\sum\omega_iX_i^{(k)}}}\\ &amp;=\sum_{k=1}^mX_i^{(k)}(h(\omega)^{(k)}-Z^{(k)})\end{aligned} di=ωif(ωi)=ωi(lnL(Zωi))=k=1m[Z(k)h(ω)(k)1ωih(ω)(k)+(1Z(k))1h(ω)(k)1ωi(1h(ω)(k))]=k=1m[Z(k)(1+eωiXi(k))(1+eωiXi(k))2Xi(k)eωiXi(k)+(1Z(k))eωiXi(k)1+eωiXi(k)]((1+eωiXi(k))2Xi(k)eωiXi(k))=k=1m[Z(k)(1+eωiXi(k))Xi(k)eωiXi(k)+(1Z(k))1+eωiXi(k)Xi(k)]=k=1mZ(k)Xi(k)1+eωiXi(k)eωiXi(k)1+Xi(k)1+eωiXi(k)1=k=1mXi(k)(h(ω)(k)Z(k))
所以逻辑回归算法流程如下:
1.将特征向量扩展成 X = ( 1 , x 1 , . . . , x l ) X=(1,x_1,...,x_l) X=(1,x1,...,xl)
2.选定初始值 ( ω 0 , ω 1 , . . . , ω l ) t = 0 (\omega_0,\omega_1,...,\omega_l)_{t=0} (ω0,ω1,...,ωl)t=0
3.选择迭代步长 η \eta η,精度 δ 0 \delta_0 δ0以及迭代次数限 T 0 T_0 T0
4.重复以下计算过程:
  ① 计算负梯度: d i ∣ t = j = ∑ k = 1 m X i ( k ) ( h ( ω ) ( k ) − Z ( k ) ) , j = 0 , 1 , . . . , ( T 0 − 1 ) d_{i|{t=j}}=\sum_{k=1}^mX_i^{(k)}(h(\omega)^{(k)}-Z^{(k)}),j=0,1,...,(T_0-1) dit=j=k=1mXi(k)(h(ω)(k)Z(k)),j=0,1,...,(T01)
  ② 更新各个参数: ω i ∣ t = j + 1 = ω i ∣ t = j + d i ∣ t = j × η \omega_{i|{t=j+1}}=\omega_{i|{t=j}}+d_{i|{t=j}}\times\eta ωit=j+1=ωit=j+dit=j×η
  ③ 检验是否满足迭代要求: ( 1 ) δ = ∣ d i ∣ t = j × η ∣ &lt; δ 0 或 ( 2 ) t = j &gt; T 0 (1) \delta = |d_{i|{t=j}}\times\eta|&lt;\delta_0或(2) t=j&gt;T_0 (1)δ=dit=j×η<δ0(2)t=j>T0
5.满足迭代要求即终止计算,输出最终 ω i ∣ t = f i n a l \omega_{i|{t=final}} ωit=final


参考文献:

[1]. 机器学习[M]. 周志华.
[2]. logistic回归:从生产到使用
[3]. 逻辑回归二分类总结(不断迭代,直到彻底掌握)
[4]. Python机器学习算法[M].赵志勇.

文章导引列表:
机器学习

  1. 小瓜讲机器学习——分类算法(一)logistic regression(逻辑回归)算法原理详解
  2. 小瓜讲机器学习——分类算法(二)支持向量机(SVM)算法原理详解
  3. 小瓜讲机器学习——分类算法(三)朴素贝叶斯法(naive Bayes)
  4. 待续

数据分析

  1. 小呆学数据分析——使用pandas中的merge函数进行数据集合并
  2. 小呆学数据分析——使用pandas中的concat函数进行数据集堆叠
  3. 小呆学数据分析——pandas中的层次化索引
  4. 小呆学数据分析——使用pandas的pivot进行数据重塑
  5. 小呆学数据分析——用duplicated/drop_duplicates方法进行重复项处理
  6. 小呆学数据分析——缺失值处理(一)
  7. 小呆学数据分析——异常值判定与处理(一)
  8. 小瓜讲数据分析——数据清洗

数据可视化

  1. 小瓜讲数据分析——数据可视化工程(matplotlib库使用基础篇)
  2. 小瓜讲matplotlib高级篇——坐标轴设置(坐标轴居中、坐标轴箭头、刻度设置、标识设置)
  • 1
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
### 回答1: Logistic回归是一种逻辑回归方法。它是一种特殊的回归方法,用于对于分类问题中的因变量建立预测模型。这种方法基于学习一个由输入变量到二元输出变量的条件概率来构建预测模型,用于对一个新的样本进行分类。它对于分类问题中的因变量建立预测模型非常有效。 ### 回答2: 逻辑回归是一种用于解决二分类问题的监督学习算法。它是一种基于概率统计的分类模型,可以用于预测分类结果。逻辑回归的输出结果是一个0到1之间的概率值,其含义是该样本属于某一类别的概率。 逻辑回归模型的基本假设是数据服从伯努利分布,也就是数据只有两种可能的取值,被称为正类和负类。对于给定的训练数据集,逻辑回归模型的目标是最大化似然函数,即最大化样本属于正类(或负类)的概率。利用最大似然估计方法,我们可以求解出逻辑回归模型的参数。在实际应用中,我们通常使用梯度下降等优化算法来求解模型参数。 逻辑回归模型有多种变体,如L1正则化逻辑回归、L2正则化逻辑回归、多项式逻辑回归等。其中,L1正则化逻辑回归可以实现特征选择,可以削减一些不重要的特征,从而简化模型,提高计算速度和模型的泛化能力。 在机器学习领域,逻辑回归是一个常用的模型。它广泛应用于各种领域,如网络广告点击率预测、信用风险评估、医疗诊断等。逻辑回归模型简单易实现,具有较高的解释性,是一个较为理想的分类算法。 ### 回答3: 逻辑回归Logistic Regression)是一种经典的分类算法,在机器学习和统计学领域中得到广泛的应用。它旨在从已有的数据中构建一个能够预测类别的模型,输出结果为概率值,可以用于二分类或多分类问题的解决。 逻辑回归的基本原理是利用一个特定的函数对输入特征进行线性组合,然后将结果输入到一个Sigmoid函数中进行映射,将结果值压缩到0到1的范围内,表示输入属于某一类别的概率。这个Sigmoid函数可以被看作是一个阀门,控制着数据流向最终输出。它将具有很强预测能力的线性组合函数输出转化为概率输出的过程,将出现在中间层的结果值映射到[0,1]范围内,以表达某个样本属于某个类别的概率。 在训练模型时,逻辑回归使用的是最大似然估计的方法来确定模型的参数。在分类训练数据时,需要对样本经过一系列的处理,例如特征提取、特征转换、数据归一化等步骤。训练数据可以通过梯度下降法、牛顿迭代法等优化方法来确定最佳参数。通过此训练过程,模型可以学习到输入特征与输出概率之间的映射关系。 逻辑回归的优点包括了功能简单、速度快、易于实现和修改等等。它是机器学习中最为基本的分类算法之一,在数据挖掘、信用评估、自然语言处理、广告推荐等领域都有广泛的应用。逻辑回归作为一个二分类算法,常被用于解决分类问题。然而,在实际业务中,如何选择不同的逻辑回归模型及参数,对算法的效果和优化有着重要的影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力的骆驼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值