Datawhale-2

最新推荐文章于 2024-07-24 22:29:13 发布

qq_38252775

最新推荐文章于 2024-07-24 22:29:13 发布

阅读量123

点赞数

本文链接：https://blog.csdn.net/qq_38252775/article/details/88092817

版权

1、逻辑回归与线性回归的联系与区别

回归模型就是预测一个连续变量(如降水量，价格等)。在分类问题中，预测属于某类的概率，可以看成回归问题。这可以说是使用回归算法的分类方法。
直接使用线性回归的输出作为概率是有问题的，因为其值有可能小于0或者大于1,这是不符合实际情况的，逻辑回归的输出正是[0,1]区间。线性回归只能预测连续的值，分类算法输出为0和1。
线性回归中使用的是最小化平方误差损失函数，对偏离真实值越远的数据惩罚越严重；逻辑回归使用对数似然函数进行参数估计，使用交叉熵作为损失函数，对预测错误的惩罚是随着输出的增大，逐渐逼近一个常数。

2、逻辑回归的原理

逻辑回归也被称为对数几率回归，算法名虽然叫做逻辑回归，但是该算法是分类算法，个人认为这是因为逻辑回归用了和回归类似的方法来解决了分类问题。

3、逻辑回归损失函数推导及优化

优化方法：共轭梯度，局部优化法，有限内存局部优化法

4.正则化与模型评估指标

模型评估指标：
回归模型的评估：平均均方误差MSE

拟合优度(Goodness of fit)
拟合优度（Goodness of Fit）是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数（亦称确定系数） $R^{2}$ .
最大值为1。 $R^{2}$ 的值越接近1，说明回归直线对观测值的拟合程度越好；反之，R^2的值越小，说明回归直线对观测值的拟合程度越差。

5、逻辑回归的优缺点

优点：

1）预测结果是界于0和1之间的概率；

2）可以适用于连续性和类别性自变量；

3）容易使用和解释；

缺点：

1）对模型中自变量多重共线性较为敏感，例如两个高度相关自变量同时放入模型，可能导致较弱的一个自变量回归符号不符合预期，符号被扭转。需要利用因子分析或者变量聚类分析等手段来选择代表性的自变量，以减少候选变量之间的相关性；

2）预测结果呈“S”型，因此从log(odds)向概率转化的过程是非线性的，在两端随着log(odds)值的变化，概率变化很小，边际值太小，slope太小，而中间概率的变化很大，很敏感。导致很多区间的变量变化对目标概率的影响没有区分度，无法确定阀值。

6、样本不均衡问题解决办法

样本的过采样和欠采样。
使用多个分类器进行分类。
将二分类问题转换成其他问题。
改变正负类别样本在模型中的权重。

7、sklearn参数
n_neighbors：默认为5，就是k-NN的k的值，选取最近的k个点。
weights：默认是uniform，参数可以是uniform、distance，也可以是用户自己定义的函数。uniform是均等的权重，就说所有的邻近点的权重都是相等的。distance是不均等的权重，距离近的点比距离远的点的影响大。用户自定义的函数，接收距离的数组，返回一组维数相同的权重。
algorithm：快速k近邻搜索算法，默认参数为auto，可以理解为算法自己决定合适的搜索算法。除此之外，用户也可以自己指定搜索算法ball_tree、kd_tree、brute方法进行搜索，brute是蛮力搜索，也就是线性扫描，当训练集很大时，计算非常耗时。kd_tree，构造kd树存储数据以便对其进行快速检索的树形数据结构，kd树也就是数据结构中的二叉树。以中值切分构造的树，每个结点是一个超矩形，在维数小于20时效率高。ball tree是为了克服kd树高纬失效而发明的，其构造过程是以质心C和半径r分割样本空间，每个节点是一个超球体。
leaf_size：默认是30，这个是构造的kd树和ball树的大小。这个值的设置会影响树构建的速度和搜索速度，同样也影响着存储树所需的内存大小。需要根据问题的性质选择最优的大小。
metric：用于距离度量，默认度量是minkowski，也就是p=2的欧氏距离(欧几里德度量)。p：距离度量公式。在上小结，我们使用欧氏距离公式进行距离度量。除此之外，还有其他的度量方法，例如曼哈顿距离。这个参数默认为2，也就是默认使用欧式距离公式进行距离度量。也可以设置为1，使用曼哈顿距离公式进行距离度量。
metric_params：距离公式的其他关键参数，这个可以不管，使用默认的None即可。
n_jobs：并行处理设置。默认为1，临近点搜索并行工作数。如果为-1，那么CPU的所有cores都用于并行工作

qq_38252775

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Datawhale-2

1、逻辑回归与线性回归的联系与区别回归模型就是预测一个连续变量(如降水量，价格等)。在分类问题中，预测属于某类的概率，可以看成回归问题。这可以说是使用回归算法的分类方法。直接使用线性回归的输出作为概率是有问题的，因为其值有可能小于0或者大于1,这是不符合实际情况的，逻辑回归的输出正是[0,1]区间。线性回归只能预测连续的值，分类算法输出为0和1。线性回归中使用的是最小化平方误差损失函数...
复制链接

扫一扫