1.人工智能与机器学习
人工智能是通过机器来模拟人类认知能力的技术
当代的人工智能普遍通过学习来获得进行预测和判断的能力。这样的方法被称为机器学习
监督学习
最常用的一种机器学习方法
预测值的真实值通过提供反馈对学习过程起到了监督的作用,我们称这样的学习方式为监督学习。
(但是每个样本都要提供预测量的真实值,需要大量的人力)
无监督学习(难)
半监督学习
提供小部分的监督数据,往往比无监督学习有更好的效果,并且可以控制成本
强化学习
利用学习得到的模型来指导行动,目标就是获得一个策略(Policy)去指导行动,不需要一系列的输入和预测的样本,他是在行动中学习。
强化学习模型一般包含如下几个部分:
- 一组可以动态变化的状态(state) 如棋盘黑白子的分布位置
- 一组可以选择的动作(action) 如落子的位置
- 一组可以和决策主体交互的环境,会决定每个动作后状态如何变化 如博弈的对手
- 回报(reward)规则,决策主体通过行动使状态
2.分类任务
分类(classification)是要根据所给数据的不同特点,判断他属于哪个类别
能像人类一样区别一些事物的特征,并且判断出来,完成分类任务的人工智能系统,被称为分类器。
其中最重要的一部是 特征提取 然后放到训练好的分类器中国,分类器能够根据这些特征进行预测,输出你想要的种类。
提取特征
特征是在分类器乃至于所有人工智能系统中非常重要的概念。
特征向量
把描述一个事物的特征数值都组织在一起,形成一个特征向量,对他进行更完备的刻画。
特征点和特征空间
把特征向量表示在直角坐标系中,比如(1.1,0.1),就可以把他看成一个点,特征点。
所有特征点构成的空间叫特征空间。
特征点之间的距离来衡量物体之间的相似度。
3.分类器
可以清楚的看到一条线 两边区域分别代表不同的种类,这条线就是分类器。
类似f(x1,x2,----xn) = ax1+bx2±—b形式的分类器被称为线性分类器。
在这个例子中,我们可以直接画出一条直线来分类,但是实际情况下特征点分布十分复杂,采用观察的方式画出分类直线是不可能的,因此需要一些方法得到分类直线。
训练分类器
比如学校, 学习知识的过程叫做训练,考试过程被称为测试,解决实际问题被称为应用
训练阶段需要大量的训练数据,并且需要对数据进行测试,一般情况下需要知道他们实际的类别人工进行标注,分时费时费力,有的数据标注甚至需要专业人士。
例如
在数据集的基础上去训练分类器,如果数据集被用于分类器训练,我们称之为训练集。
这一过程是由一系列判断和计算的步骤组成的,通常被称为算法(algorithm)
下面介绍两种常用的训练线性分类器的算法。
感知器(perceptron)
主要想法:利用被误分类的训练数据调整现有分类器的参数,调整后的分类器更加准确。
如果标注的类别是+1,则ax+bx+c<0就是误分类,反之-1,>0误分类
具体感知器算法如图所示
损失函数
loss function 是在训练过程中用来度量分类器输出错误程度的数学化表达。
误分类的数据点离直线越远,损失函数越大。
支持向量机
在给定一批训练数据后,我们希望分类先离数据点越远越好,实际上,我们只要关注离分类直线最近的点的距离,使得他们距离分类直线越远越好。
把两个类别中离分类直线最近的点到直线的距离称为 分类间隔
如下图,可以看到橙色直线的阴影区域更宽对应分类间隔更大,确信程度更高
支持向量机(SVM)是特征空间上分类间隔最大的分类器。
支持向量机的损失函数
4.多分类问题
归一化指数函数(softmax)
将多个分类器通过一个归一化指数函数输出转变为概率–说明一个物体属于哪一类的可能性。
5.图像分类
图像可以表示为一个由数字组成的矩形阵列,称为矩阵(matrix)小格子称为像素(pixel)
格子的行数与列数为分辨率。 1280×720 1280行和720列
一个彩色图像可以用一个由整数组成的立方体阵列来表示。称这样的数字阵列为三阶张量(tensor)。
三阶张量的高度称为通道。 向量是一阶张量,矩阵是二阶张量。
图像特征
卷积运算
参与卷积运算可以是向量,矩阵或三阶张量。
两个向量卷积的结果仍然是一个向量。
利用卷积提取图像特征
通过分别乘以三列1,0,-1 三行1,0,-1 的卷积核,可分别提取到图像的左右像素和上下像素。
方向梯度直方图
6.深度神经网络
卷积层
一个深度神经网络以卷积层为主体时,称之为卷积神经网络。
由简单到复杂,由低级到高级 :例如 字母的组合 得到单词 单词的组合 得到句子 句子的分析 得到语义 语义的分析 得到思想和目的
一个卷积核可以得到一个通道为1的三阶张量,每一个通道都是从原图像中提取的一种特征,我们将这个张量称为特征图。
全连接层
图片分类时,图片经过若干卷积层后,得到的特征图转化为特征向量,用到的便是全连接层。
归一化指数层
完成多类线性分类器的归一化指数的计算。
非线性激活层
通常在每个卷积层和全连接层后面都连接了一个非线性激活层。
常用线性函数:
以线性整流函数构成的非线性激活层(ReLU层)为例,将小于0的的元素都变成0,保持其他元素不变,就得到了输出。
池化层
防止卷积层的计算量很大,分辨率很大的话,会在几个卷积层之后插入池化层,以降低特征图的分辨率。
人工神经网络和生物神经网络
特征图或特征向量中的每个元素称为神经元,元素的值称为神经元的响应。
人工神经网络的训练
有时候学习的参数多达六千万个,其难度 远高于线性分类器的训练。针对这类问题,突出了
反向传播(backpropagation)算法,训练神经网络最有效的手段之一。
过拟合和欠拟合
过多的层数带来过多的参数,导致机器学习的通病,过拟合。
复杂模型过多的迎合训练数据,导致大量数据表现很差的现象叫做过拟合。
模型勾玉简单能力较弱,而导致在训练过程中准确率很低并难以提升,在数据上表现同样很差的现象称为欠拟合。
权值衰减等正则化的方法来解决这个问题
梯度消失
对网络进行简单堆叠加深导致一种影响性能的现象:梯度消失。
可用批处理华和跨层连接解决
声音识别+视频识别
运动的刻画:光流
可以将一组数据分成不同的类。我们称这列方法为聚类。
光流直方图
聚类
通过分析数据在特征空间的聚集情况,也可以将一组数据分成不同的类。称这类方法为聚类。
K均值聚类
通过循环的改善中心店与划分方式,我们可以得到越来越好的聚类结果。
人脸聚类
人脸检测 然后 人脸转正(去除脸部姿态的干扰)
将相册里面出现的人脸分为若干类
手肘法
层次聚类和生物聚类
文本数据处理
海量文本数据称为语料库,语料库中的独立文本称为文档,文档的中心思想或主要内容成为主题。
文本特征
词袋模型
用于描述文本的一个简单的数学模型,常用的一种文本特征提取方式。
有了词袋后,可以构建一个包含若干词语的词典。
每个词语在文档中出现的次数按照序号排列,得到文档的 词计数向量。
if-idf(词频-逆文档频率)
词频就是词在文本中的出现的频率,但是频率高的不一定重要,这时候需要逆文档频率,比如一篇文章中,出现了很多次的铭铭,但是他的动作也有很多,这时候动作是比铭铭重要。
主题模型
主题模型是描述语料库及其中潜在主题的一类数学模型。
创作图画
生成对抗网络
由生成网络和判别网络构成
生成网络生成数据 判别网络辨别真假
通过他们相互对抗来学习
简单生成的样本所在空间被称为潜在空间
生成网络
判别网络
条件生成对抗网络
可以根据条件生成不同的图片
0856433537)]
[外链图片转存中…(img-kTdwS4v2-1720856433537)]
创作图画
生成对抗网络
由生成网络和判别网络构成
生成网络生成数据 判别网络辨别真假
通过他们相互对抗来学习
简单生成的样本所在空间被称为潜在空间
生成网络
[外链图片转存中…(img-W8TYY4yh-1720856433537)]
判别网络
[外链图片转存中…(img-dRyjgfXL-1720856433537)]
条件生成对抗网络
可以根据条件生成不同的图片
[外链图片转存中…(img-f6pp2n0s-1720856433538)]