《机器学习实战》python3中的项目汇总（整理中）

最新推荐文章于 2024-07-18 15:30:34 发布

LeeOhe丶

最新推荐文章于 2024-07-18 15:30:34 发布

阅读量1.1k

点赞数

分类专栏：机器学习文章标签：资源

本文链接：https://blog.csdn.net/qq_27403925/article/details/100602355

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

朴素贝叶斯：

1.屏蔽言论https://blog.csdn.net/c406495762/article/details/77341116

2.新浪新闻分类https://blog.csdn.net/c406495762/article/details/77500679

逻辑回归：

我的算法理解：线性回归即为曲线拟合法，有点像最小二乘法。y=wx+b，也是一个最优化问题，目标函数是cost function，最终找到一个最优的w和b。而寻找w和b就是用梯度下降法，在程序中可以用迭代实现，而迭代的步长可以是固定的，也可以是随机的。

逻辑回归理解：在上面的方法得到线性回归方程后，可以根据w和x得到y的预测值，利用sigmoid函数将y的预测值映射到[0,1]区间内，并设置阈值，从而分类。

逻辑回归算法示例：

这就是一个简单的数据集，没什么实际意义。让我们先从这个简单的数据集开始学习。先看下数据集有哪些数据：

这个数据有两维特征，因此可以将数据在一个二维平面上展示出来。我们可以将第一列数据(X1)看作x轴上的值，第二列数据(X2)看作y轴上的值。而最后一列数据即为分类标签。根据标签的不同，对这些点进行分类。

Logistic回归一种二分类算法，它利用的是Sigmoid函数阈值在[0,1]这个特性。Logistic回归进行分类的主要思想是：根据现有数据对分类边界线建立回归公式，以此进行分类。其实，Logistic本质上是一个基于条件概率的判别模型(Discriminative Model)。

所以要想了解Logistic回归，我们必须先看一看Sigmoid函数，我们也可以称它为Logistic函数。它的公式如下：

z是一个矩阵，θ是参数列向量(要求解的)，x是样本列向量(给定的数据集)。θ^T表示θ的转置。g(z)函数实现了任意实数到[0,1]的映射，这样我们的数据集([x0,x1,…,xn])，不管是大于1或者小于0，都可以映射到[0,1]区间进行分类。hθ(x)给出了输出为1的概率。比如当hθ(x)=0.7，那么说明有70%的概率输出为1。输出为0的概率是输出为1的补集，也就是30%。

如果我们有合适的参数列向量θ([θ0,θ1,…θn]^T)，以及样本列向量x([x0,x1,…,xn])，那么我们对样本x分类就可以通过上述公式计算出一个概率，如果这个概率大于0.5，我们就可以说样本是正样本，否则样本是负样本。

举个例子，对于"垃圾邮件判别问题"，对于给定的邮件(样本)，我们定义非垃圾邮件为正类，垃圾邮件为负类。我们通过计算出的概率值即可判定邮件是否是垃圾邮件。

到这里！我们发现！逻辑回归最终的分类结果是由sigmod函数给出的，而函数的输入量z为一个直线方程。

这里：z=w0*1+w1*x1+w2*x2；其中w0为常数项目，如果令z=0，则g(z)=0.5，则可得x1和x2的直线方程，即为分割线方程（决策边界）。

当求出参数w后，如何分类呢？

只需将样本x带入z=w0*1+w1*x1+w2*x2，若g(z)>0.5，则是一类；若g(z)<0.5，是另一类。

那么问题来了！如何得到合适的参数向量θ?——梯度上升法（θ也是w）

详细推导见：https://blog.csdn.net/c406495762/article/details/77723333

项目名称：预测病马死亡率

这里的数据包含了368个样本和28个特征。然后再利用Logistic回归和随机梯度上升算法来预测病马的生死。

随机梯度上升算法：适用于数据量较大时

梯度上升算法：使用于数据量较小时