人工智能基础(高中版)中一些术语的整理

学习笔记-----人工智能基础(高中版)中一些术语的整理

第二章 辨类

特征:可以对事物得某些方面的特点进行刻画的数字或属性。(对同样的事物,可以提取出各种各样的特征)特征的质量很大程度上决定了分类器最终分类效果的好坏。

几种常用的人工设计的特征:
图像–方向梯度直方图
声音–梅尔频率倒谱系数
视频–光流直方图
有词频率–逆文档频率

特征向量:特征用向量的形式表示,能够把描述一个事物的特征数值都组织在一起。
特征点:表示特征向量的点。
特征空间:特征点构成的空间。
物体之间的相似程度:可以使用特征点之间的距离来衡量。
分类器:由特征向量到预测类别的函数。
线性分类器形式:在这里插入图片描述
(n:特征向量的维数,在这里插入图片描述
:函数的系数/分类器的参数)
训练/测试数据:在训练/测试阶段使用的数据。
训练集:被用于分类器训练的数据集(数据集中的每一行代表一个样本)。

两种常见的训练线性分类器的算法:感知器和支持向量机
感知器:利用被误分类的训练数据调整现有分类器的参数,使得调整后的分类器判断得更加准确。

(学习率):每一次更新参数的程度大小。
损失函数:在训练过程中用来度量分类器输出错误程度的数学化表示。(预测错误程度越大,损失函数的取值就越大)
优化方法:调整参数的规则。(目标:使得损失函数的值最小)

一个点距离分类直线的远近可以表示分类预测的确信程度。
分类间隔:两个类别中离分类直线最近的点到直线的距离和。

支持向量机:在特征空间上分类间隔最大的分类器。
支持向量:能够定义分类直线的训练数据,也是最难被分类的训练数据。
几何间隔(数据点到分类直线):点到直线的带符号的距离。
分类间隔是几何间隔的两倍。

分类准确率=(分类正确的样本数/测试样本总数)*100%

归一化指数函数:将一个向量(比如多个二分类函数的输出值可以组成一个向量)“压缩”到另一个向量中,使得其中每一个元素的范围在(0,1)之间,并且所有的元素和为1。(该过程称为归一化)

第三章 认物

图像由一个个小格子组成,用不同的数字表示不同的颜色,图像可以表示为一个由数字组成的举行列阵。
矩阵:由数字组成的矩形阵列
小格子:像素
格子的行数与列数:分辨率

三阶张量:按立方体排列的数字列阵。(长度和宽度:图像的分辨率,高度:阶数/通道数)

卷积运算参与者:向量、矩阵、三阶张量
两个向量卷积的结果:向量
卷积核(元素可以是任意实数):与一个图像矩阵做卷积运算来得到一个新的矩阵的形状较小的矩阵。

边缘特征
方向梯度直方图:使用边缘检测技术和一些统计学方法,可以表示出图像中物体的轮廓。

深度神经网络:通常由多个顺序连接的层组成。(经过很多层的变换之后,神经网络就可以将原始图像转变为高层次的抽象的特征)
卷积层:深度神经网络在处理图像时十分常用的一种层。
卷积神经网络:以卷积层为主体的深度神经网络。
卷积层的最终输出:特征图。

全连接层:使用若干维数相同的向量与输入向量做内积操作,并将所有结果拼接成一个向量作为输出。
归一化指数层:完成多类线性分类器中的归一化指数函数的计算。
非线性激活层:先选定某种非线性函数,然后再对输入特征图或特征向量的每一种元素应用这种非线性函数,得到输出。
ReLU(以线性整流函数构成的非线性激活层):对于输入的特征向量或特征图,它会将其中小于零的元素变成零,而保持其余元素的值不变,得到输出。(计算简单,计算速度快)

池化层
最大池化层:每一个区块取最大值的池化层。
平均池化层:每一个区块取平均值的池化层。

神经元:特征图或特征向量中的每个元素。
神经元的响应:元素的值。

训练:寻找最佳参数的过程。
反向传播算法(从后往前调整参数的方法):预测结果不够好时,从最后一层开始,逐层调整神经网络的参数,使网络对这个训练样本能够做出更好的预测。
过拟合:复杂模型过多的“迎合”训练数据、导致其在大量新数据上表现很差的现象。
欠拟合:由于模型本身过于简单能力较弱,而导致在训练过程中准确率很低并且难以提升、在新数据上表现同样很差的现象。
梯度消失

第四章 听音

采样:使电信号在时间上变得离散。
量化:使电信号在幅度上变得离散。
时间序列(可视化后即波形):(计算机中音频文件描述的是)一系列按时间先后顺序排列的数据点。
采样率:即采样频率,采样率越高,声音还原得越自然。

音乐三要素:响度(波形的幅度表示声音的强弱)、音调(声音频率的高低表示声音调子的高低)、音色(泛音)。
梅尔频率倒谱系数(MFCC):MFCC特征的维数低,可以粗略的刻画出频谱的形状,可以大致描述出不同频率声音的能量高低,可以表达出声音的一个重要特性(共振峰)。
共振峰(在元音频谱上十分明显):声音频谱上能量相对集中的一些区域。
梅尔频率:特殊的频率刻度。该频率刻度下等长的频率区间对应到普通频率下变为不等长的区间,低频部分分辨率高,高频部分分辨率低。
倒谱:可以将特征维数降低,并保留音频信号的重要特点。
切分音频时参数:窗口宽度、窗口间隔。

分帧:把一段语音分成若干小段。
把每一帧识别为一个状态,再把状态组合成音素。
音素:声母和韵母。
状态:比音素更加细节的语音单位。
一个音素通常会包含三个状态。
声学模型:利用语言的声学特性,把一系列语音帧转换为若干音素的过程。
语言模型:从音素到文字的过程需要用到语言表达的特点,在同音字中挑选出正确的文字,组成意义明确的语句。

第五章 视频

视频:按照时间顺序排列起来的图像。(每张照片称为这个视频的一帧)
行为:人类在执行某一任务的时候所发生的一连串动作。
视频行为识别:是计算机分析给定视频数据,辨别出用户行为的过程。
光流(瞬时位移):描述三维的运动点投影到二维图像之后相应的投影点的运动(同一个点在相邻两帧的位移)。
光流直方图:统计视频中的光流信息,表示视频中物体的运动信息。
时空单元
光流分量
轨迹特征:描述一段时间内物体运动状态的特征。

静态:通过静态图片帧获得
动态:通过光流灰度图获得
基于单帧的识别方法:用视频中的某帧图片代表整个视频的信息。
水平(垂直)方向上的光流灰度图:把所有的水平位移取出来,然后把它们的值缩放到0到255之间,那么就得到了一张灰度图像。
双流卷积神经网络:空间流卷积神经网络(随机抽取的单个彩色图像帧作为输入的网络)和时间流卷积神经网络(多帧的光流图像作为输入的网络)。

时序分段网络:一种处理长视频数据(几分钟)的神经网络。能够将视频沿时间轴分段,使得采样样本能较为均匀的分布于整个时间段,使得网络能够模拟整个较长时间的结构,模型能够动态覆盖整个视频。
稀疏时间采样策略:对于长度不同的数据,根据时间先后分成固定数量的段落。从每个段落提取一个特征,可以得到固定长度的特征,后跟一个处理固定长度数据的网络。

第六章 无监督分类

聚类:通过分析数据在特征空间的聚集情况,可以将一组数据分成不同的类。(旨在把一群样本分为多个集合,使得同一集合内的元素尽量“相似”或“相近”)
聚类中心:由某一类的平均特征决定。
K均值聚类:随机地从样本中选取k个样本,作为每一个类别的初始聚类中心。将每一个样本划分给距离最近的聚类中心对应的类别,得到新的划分方式。重新计算每类样本的聚类中心,…。
手肘法:在拐点之后,随着K的增加,平均距离(样本到对应聚类中心的平均距离)减少的非常缓慢。该拐点是K值的一个合适的选择。

层次聚类:将每个样本都单独当成一类,然后重复的合并最相似的两个类,所有的类别间的距离都超过一个预设的截至距离时完成聚类。

第七章 识文

语料库:海量文本数据
文档:语料库中独立的文本
主题:文档的中心思想或主要内容
词袋模型:用于描述文本的一个简单数学模型,也是常用的一种文本特征提取方式。只考虑词语在文档中出现的次数,忽略词语的顺序以及句子的结构。
词计数向量
词频向量
中文的分词
停止词:不携带任何主题信息的高频词。(在构建词典时,通常不去除停止词)
低频词:出现次数极低。(去掉低频词)
词频率:一个词语在一篇文档中出现的频率。
一个词语的文档频率:语料库中出现过该词语的文档总数与语料库中所有文本的总数的商。
逆文档频率:文档频率的负对数。(越高越重要)
词频率–逆文档频率:一个词语在某篇文章中的词频率与该词的逆文档频率相乘。

主题模型:描述语料库及其潜在主题的一类数学模型。
D(文档词频)=W(主题比重)T(主题词频)
非负矩阵分解

第八章 创图

生成模型:可以随机生成观测数据。
生成对抗网络由生成网络(生成数据)和判别网络(分辨数据是真是假)组成。
数据空间:数据所在的空间。(在生成图像的任务中,数据空间就是一些图像的集合,也可称为图像空间,在该空间中,每张图片都是这个空间里的一个点)
空间:表示具有共性的元素组成的集合。
数据分布:数据在空间中分布的情况。
潜在空间:在生成对抗网络中所用到的简单分布生成的样本所在的空间。(把一个简单的、容易把握的分布变成这个复杂的、难以把握的数据分布,以此来通过简单的分布间接地掌握复杂的数据分布)

生成网络(生成器):把随机点变成与数据集相似的图片。
生成点:生成网络生成的点。
生成分布:图像空间中的分布。(可通过生成网络,由潜在空间中的分布变换得到)

判别网络(判别器):判断一张图片究竟是来自真实数据还是由生成网络所生成。(真实:1,生成:0,其他:可能是真实的概率)

第九章 围棋

策略网络(走棋网络):该网络接受当前棋盘局面作为输入,并输出在当前局面下选择每个位置的落子概率。
强化学习(为了找到最佳策略,累积最多的回报):反馈是评估性的,该学习系统只会告诉学习者当前的做法是好的还是坏的。(研究主体与环境之间的交互)
主体:负责做出决策的实体。
主体存在于环境中,其行为作用于环境,并接受环境的反馈。(主体通过动作作用于环境后,环境的好与坏就通过回报反馈给主体)

策略:指的是主体(阿法狗)的行为(即面对不同局面时阿法狗选择的下棋方案),是一个从状态集合(围棋中,由所有可能的棋局局面组成)到动作集合(阿法狗可以采取的所有符合规则的落子方案)的映射。

估值网络:在阿法狗的运用中用于量化评估/当前的围棋局面/(输入),使阿法狗在对弈中无需走完全局即可快速预测当前局面的胜率。

蒙特卡罗树搜索:一种通过随机推演建立一棵搜索树的启发式搜索过程。(从当前局面开始推演得到回报正/负,再反向沿着方案回溯,来提高获胜概率)
快速走子网络(轻量级的策略网络):速度快,在进行蒙特卡罗树搜索(用来推演当前局面的发展)时可以快速模拟更多的未来落子可能性。

策略迭代算法:通过不断地交替进行策略评估和策略改进来完成强化学习。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值