常用机器学习算法简介

最新推荐文章于 2023-10-09 19:52:10 发布

RussellEven

最新推荐文章于 2023-10-09 19:52:10 发布

阅读量385

点赞数

分类专栏：笔记文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_39444746/article/details/103552096

版权

笔记专栏收录该内容

1 篇文章 0 订阅

订阅专栏

常用机器学习算法简介

1. AdaBoost
2. 线性回归
3.逻辑回归：
4. K近邻
5. KMeans与KMeans++
6.
7.
8.
9.

1. AdaBoost

$\space$ $\space$ $\space$ $\space$ $\space$ AdaBoost算法是一种分类器算法，其基本思想是首先将训练数据训练成比随机猜测效果略好的弱分类器，然后按照分类器分类正确时减少其权重，分类错误时增强其权重的原则构建强分类器。大致的分类流程如下：

AdaBoost算法的具体实现步骤如下：

(1) 选定训练样本 $x1,y1), (x2,y2), ...,(x_n,y_n)$

$\space$ $\space$ $\space$ $\space$ $\space$ $y_i$ 是否为0表示其是否为负样本，即分类错误； $n$ 为训练样本的总数量。

(2) 初始化权重：均值初始化

$\space$ $\space$ $\space$ $\space$ $W_{1}$ = { $w_{11}$ , $w_{12}$ , $w_{13}$ ,… $w_{1n}$ }，其中 $w_{1i}=1/n$ ， $i = 1, 2, 3, . . . . n$ 。

(3) 循环 $j = 1 : m$

$\space$ $\space$ $\space$ $\space$ 使用权重 $W_j$ 对训练数据进行训练得到弱分类器 $G_j$ ，并计算所有弱分类器上的分类误差 $\epsilon$ 。误差可进行指定，若小于误差可跳出循环，一般设置分类误差为0.5：

$\space$ $\space$ $\space$ $\space$ 其中当 $x$ =0时， $I (x)$ =0；当 $x$ =1时， $I (x)$ =1。

(4) 计算分类的重要程度系数（由分类误差决定）：

(5) 更新权重（由分类误差决定）并跳至第(3)步：

$\space$ $\space$ $\space$ $\space$ $W_{j}$ = { $w_{j+1,1}$ , $w_{j+1,2}$ , $w_{j+1,3}$ ,… $w_{j+1,n}$ }，

$\space$ $\space$ $\space$ $\space$ 每一个样本的权重定义如下：

$\space$ $\space$ $\space$ $\space$ 其中， $Z_m$ 是批规范化因子，即

循环结束后最终AdaBoost分类器的形式如下

2. 线性回归

a. 回归分析：预测性建模技术，研究的是因变量（目标）与自变量（预测器）之间的关系。
b. 线性回归：y = wx+b，y为预测值，x为自变量，y为因变量。
c. 损失函数（MSE）：L=1/n*sigma1-n（yi’-yi）2
d. 目标优化：
e. 求解方法：1）最小二乘法：
2）梯度下降：
f：作用：实现对数据的拟合。

3.逻辑回归：

a. 实质：一种分类模型。
b. 表达式：
c. 常规描述：一种建立在线性回归基础之上的分类模型，
通俗来讲，逻辑回归模型是在拟合z=wx+b的直销，使此直线尽可能将两个数据类别正确分开。
d. 损失函数：对数损失（log），
e. 优化求解方法：梯度下降法

4. K近邻

a. 实质：一种通过计算新数据与训练数据特征值之间距离的监督学习方法。
b. 基本要素：
1） K值选择：应用中，K值较小，使用交叉验证来取最优K。
2）距离度量：欧式距离，曼哈顿距离
3）分类决策规则：多数表决（少数服从多数）
c. 步骤：
1）计算测试数据与各个训练数据之间的距离；
2）按照距离的递增关系进行排序；
3）选取距离最小的K个点；
4）确定前K个点所在类别出现的频率，最高频率的那个即为分类值。
d. 算法特点：
简单有效，但计算量大；设有训练过程，是一种基于实例的方法。

5. KMeans与KMeans++

a. KMeans实质：一种使各个样本与所在簇质心的误差平方和达到最小的聚类算法。
b. KMeans步骤：
1）随机选取k个点作为k个簇的起始质心；
2）分别计算剩余的元素到k个簇中心的距离，将这些元素划分到距离最小的簇；
3）根据聚类结果，取簇中所有元素各自维度的算术平均值重新计算k个簇的中心；
4）按照新的质心重复步骤2）3）直到聚类结果不再变化。
c. KMeans++实质：一种改进初始质心选择的KMeans方法。
d. KMeans++步骤：
1）随机选择一个样本作为第一个聚类中心；
2）计算每个样本与当前已有聚类中心的最短距离，距离越大表示被选择为新的聚类中心的概率越大；
3）使用轮盘法选出下一个聚类中心；
4）重复2）3）直至选出k个聚类中心；
5）常规KMeans。

6.

7.

8.

9.

RussellEven

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
常用机器学习算法简介

AdaBoost算法是一种分类器算法，其基本思想是首先将训练数据训练成比随机猜测效果略好的弱分类器，然后按照分类器分类正确时减少其权重，分类错误时增强其权重的原则构建强分类器。AdaBoost算法的具体实现步骤如下：(1) 选定训练样本 (x1,y1),(x2,y2),...,(xn,yn)(x1,y1), (x2,y2), ...,(x_n,y_n)(x1,y1),(x2,y2),...,(...
复制链接

扫一扫

专栏目录