图解机器学习总结——1、基本概念

最新推荐文章于 2024-04-26 16:41:04 发布

zhiyong_will

最新推荐文章于 2024-04-26 16:41:04 发布

阅读量5.9k

点赞数 1

分类专栏：论文与材料的学习笔记机器学习，数据挖掘算法文章标签：机器学习图解机器学习

本文链接：https://blog.csdn.net/google19890102/article/details/50957720

版权

机器学习，数据挖掘算法同时被 2 个专栏收录

60 篇文章 497 订阅

订阅专栏

论文与材料的学习笔记

22 篇文章 6 订阅

订阅专栏

序言：近期主要帮同事讲解《图解机器学习》，刚拿到这本书觉得内容相比较平常使用的机器学习算法，很多地方讲解得比较奇怪，在认真的读完后，觉得还是有很多重要的东西，因此读了书就想把知识点整理出来，加上一些自己对各种算法的认识，因此这个系列里面有一些个人的理解，若有不对的地方，还请不吝指出，谢谢。

一、机器学习的概念

对于机器学习概念的理解，机器学习主要是从大量的数据中找到数据中潜在的模式或者规律，并利用这样的模式或者规律作用于一些未知的数据。根据数据形式的不同，可以将机器学习分为：

监督学习。
无监督学习。
强化学习。

1.1、监督学习

对于监督学习的数据形式为 $\left ( \mathbf{x}^{\left ( i \right )},y^{\left ( i \right )} \right ),\; i=1\cdots n$ ，需要学习的是从特征 $\mathbf{x}^{\left ( i \right )}$ 到标签 $y^{\left ( i \right )}$ 的映射： $f\left ( \mathbf{x}^{\left ( i \right )} \right )$ 。

典型的任务包括：预测数值型数据的回归、预测分类标签的分类、预测顺序的排序等。

1.2、无监督学习

对于无监督学习的数据形式为 $\left ( \mathbf{x}^{\left ( i \right )} \right ),\; i=1\cdots n$ ，需要学习的是特征与特征之间的一种关系。

典型的任务包括：聚类、异常检测等。

1.3、强化学习

强化学习的数据形式与监督学习一致，但是在学习的过程中，不要通过标签评价学习的效果，而是通过自己对预测的结果进行评估。强化学习在机器人的自动控制、计算机游戏中的人工智能等方面有着广泛的应用。

二、机器学习中的典型任务

在机器学习中，典型的任务包括

回归
分类
异常检测
聚类
降维

2.1、回归

回归，指的是把实函数在样本点附近加以近似的有监督的函数近似问题。简单来讲，对于训练数据集 $\left ( \mathbf{x}^{\left ( i \right )},y^{\left ( i \right )} \right ),\; i=1\cdots n$ ，其中， $y^{\left ( i \right )}$ 为实数，通过学习得到一个函数：

y^= f (x)

$\hat{y}=f\left ( \mathbf{x} \right )$

常用的回归算法有：线性回归，Lasso，岭回归，回归树等。

2.2、分类

分类，指的是对于指定的模式进行识别的有监督的模式识别问题。简单来讲，对于训练数据集 $\left ( \mathbf{x}^{\left ( i \right )},y^{\left ( i \right )} \right ),\; i=1\cdots n$ ，其中， $y^{\left ( i \right )}$ 为类别型数据，如 $\left \{ -1,1 \right \}$ ，通过学习得到一个函数：

y^= f (x)

$\hat{y}=f\left ( \mathbf{x} \right )$

常用的分类算有有：SVM，Logistic回归，BP神经网络，朴素贝叶斯等。

2.3、异常检测

异常检测，指的是寻找样本集 $\left ( \mathbf{x}^{\left ( i \right )} \right ),\; i=1\cdots n$ 中所包含的异常数据的问题。

通常对于这类的无监督问题，采用密度估计的方法，把靠近密度中心的数据作为正常的数据，把偏离密度中心的数据作为异常的数据。

2.4、聚类

聚类也是一类无监督学习问题，是将样本划分到不同的类别中。

常用的聚类算法有：K-Means，谱聚类等。

2.5、降维

降维，是指从高维数据中提取出关键的信息，将其转换为易于计算的低维问题，进而对其进行求解。降维可以分为无监督的降维和有监督的降维。

常用的降维算法有：PCA，SVD等。

三、机器学习的方法

在机器学习中，对于分类问题，通常可以分为两种不同的学习的方法，即：

判别式分类
生成式分类

3.1、判别式分类

判别式分类是指利用训练数据集 $\left ( \mathbf{x}^{\left ( i \right )},y^{\left ( i \right )} \right ),\; i=1\cdots n$ ，求得分类类别 $y$ 的条件概率 $p\left ( y\mid \mathbf{x} \right )$ 到达最大的类别：

y^= a r g m a x y p (y ∣ x)

$\hat{y}=\underset{y}{argmax}\; p\left ( y\mid \mathbf{x} \right )$

这种直接利用后验概率 $p\left ( y\mid \mathbf{x} \right )$ 进行学习的过程，称为判别式分类。

3.2、生成式分类

由贝叶斯定理可知：

p (y ∣ x) = p ( x , y ) p ( x ) \propto p (x, y)

$p\left ( y\mid \mathbf{x} \right )=\frac{p\left ( \mathbf{x},y \right )}{p\left ( \mathbf{x} \right )}\propto p\left ( \mathbf{x},y \right )$

通过预测数据生成概率 $p\left ( \mathbf{x},y \right )$ 进行模式识别的分类方法称为生成式分类。

四、机器学习中的各种模型

1、线性模型

线性模型是一种较为简单的模型，其基本模型如下：

f w (x) = \sum j = 1 n w j x j

$f_{\mathbf{w}}\left ( x \right )=\sum_{j=1}^{n}w_jx_j$

在实际的使用中，通常很少直接使用这样的线性模型，通常将其进行推广，推广为基于参数的线性模型：

f w (x) = \sum j = 1 n w j ϕ j (x) = w T Φ (x)

$f_{\mathbf{w}}\left ( x \right )=\sum_{j=1}^{n}w_j\phi _j\left ( x \right )=\mathbf{w}^T\Phi \left ( x \right )$

其中 $\phi _j\left ( x \right )$ 是基函数向量 $\Phi \left ( x \right )=\left ( \phi _1\left ( x \right ),\phi _2\left ( x \right ),\cdots ,\phi _n\left ( x \right ) \right )^T$ 的第 $j$ 个因子。

2、核模型

核模型是针对基函数向量的设计，通常使用二元函数 $K\left ( \cdot ,\cdot \right )$ 表示核函数，使用较多的是高斯核函数：

K (x, c) = e x p (- ∥ x - c ∥ 2 2 h 2)

$K\left ( x,c \right )=exp\left ( -\frac{\left \| x-c \right \|^2}{2h^2} \right )$

其中， $h$ 和 $c$ 分别对应于高斯核函数的带宽与均值。

这里写图片描述

'''
Date:20160409
@author: zhaozhiyong
'''
import matplotlib.pyplot as plt
import math

def cal_Gaussian(x, c=0, h=1):
    molecule = (x - c) * (x - c)
    denominator = 2 * h * h
    return math.exp(-molecule / denominator)

x = []

for i in xrange(-40,40):
    x.append(i * 0.5);

score_1 = []
score_2 = []
score_3 = []
score_4 = []

for i in x:
    score_1.append(cal_Gaussian(i,0,1))
    score_2.append(cal_Gaussian(i,5,1))
    score_3.append(cal_Gaussian(i,0,3))
    score_4.append(cal_Gaussian(i,5,3))

plt.plot(x, score_1, 'b--', label="c=0,h=1")
plt.plot(x, score_2, 'k--', label="c=5,h=1")
plt.plot(x, score_3, 'g--', label="c=0,h=3")
plt.plot(x, score_4, 'r--', label="c=5,h=3")

plt.legend(loc="upper right")
plt.xlabel(r"time(hour)")
plt.ylabel("score")
plt.show()

3、层级模型

与参数相关的非参数模型，称为非线性模型。在非线性模型中，有一类是层级模型。层级模型中典型的是神经网络模型。

zhiyong_will

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
图解机器学习总结——1、基本概念

序言：近期主要帮同事讲解《图解机器学习》，刚拿到这本书觉得内容相比较平常使用的机器学习算法，很多地方讲解得比较奇怪，所以很认真的读了一下，读了书就想把知识点整理出来，加上一些自己对各种算法的认识，因此这个系列里面有一些个人的理解，若有不对的地方，还请不吝指出，谢谢。本系列主要包括：1、基本概念(对应书上第一章和第二章)2、最小二乘学习法3、带有约束条件的最小二乘法4、稀疏学习5、
复制链接

扫一扫