python逻辑回归训练预测_[Python] 机器学习笔记 基于逻辑回归的分类预测

导学问题

什么是逻辑回归(一),逻辑回归的推导(二 3),损失函数的推导(二 4)

逻辑回归与SVM的异同

逻辑回归和SVM都用来做分类,都是基于回归的概念

SVM的处理方法是只考虑 support vectors,也就是和分类最相关的少数点,去学习分类器

逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重,两者的根本目的都是一样的

svm侧重于超平面边缘的点,考虑局部(支持向量),而logistic回归侧重于所有点,考虑全局

逻辑回归与线性回归的不同

线性回归的输出是一个数值,而不是一个标签,不能直接解决二分类问题;

逻辑回归在线性回归的基础上,依托Sigmoid函数获取概率,通过概率划分解决二分类问题。

为什么LR需要归一化或者取对数,为什么LR把特征离散化后效果更好

归一化可以提高收敛速度,提高收敛的精度

特征离散化的优势有以下几点:

(1) 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;

(2) 离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;

特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。

(3) 离散特征的增加和减少都很容易,易于模型的快速迭代;

(4) 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;

(5) 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;

(6) 特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。

LR为什么用Sigmoid函数,这个函数有什么优缺点,为什么不用其他函数

The model of logistic regression, however, is based on quite different assumptions (about the relationship between dependent and independent variables) from those of linear regression. In particular the key differences between these two models can be seen in the following two features of logistic regression. First, the conditional distribution {\displaystyle y\mid x} y\mid x is a Bernoulli distribution rather than a Gaussian distribution, because the dependent variable is binary. Second, the predicted values are probabilities and are therefore restricted to (0,1) through the logistic distribution function because logistic regression predicts the probability of particular outcomes.

——Logistic regression

首先,在建模预测 Y|X,并认为 Y|X 服从bernoulli distribution,所以只需要知道 P(Y|X);其次需要一个线性模型,所以 P(Y|X) = f(wx)。接下来就只需要知道 f 是什么就行了。通过最大熵原理推出的这个 f,就是sigmoid。

一、介绍

逻辑回归(Logistic regression,简称LR),是一个分类模型,主要用于两分类问题(即输出只有两种,分别代表两个类别),并且广泛应用于各个领域之中。

逻辑回归模型的优劣势:

优点:实现简单,易于理解和实现;计算代价不高,速度很快,存储资源低;

缺点:容易欠拟合,分类精度可能不高

线性回归的输出是一个数值,而不是一个标签,显然不能直接解决二分类问题。

一个最直观的办法就是设定一个阈值,比如0,如果预测的数值 y > 0 ,那么属于标签A,反之属于标签B,采用这种方法的模型又叫做感知机(Perceptron)。 ‘

另一种方法,不去直接预测标签,而是去预测标签为A概率。概率是一个[0,1]区间的连续数值,那输出的数值就是标签为A的概率。一般的如果标签为A的概率大于0.5,就认为它是A类,否则就是B类。这就是逻辑回归模型 (Logistics Regression)。

二、原理及公式推导

1. Sigmoid函数

Logistic函数(或称为Sigmoid函数),函数形式为:

对应函数图像为:

%matplotlib inline

import numpy as np

import matplotlib.pyplot as plt

x = np.arange(-5,5,0.01)

y = 1/(1+np.exp(-x))

plt.plot(x,y)

plt.xlabel('z')

plt.ylabel('y')

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值