第一章 序论
1.如果一个问题或者任务不可计算,那么对这个问题或任务的描述哪一句是正确的(C )
A.该问题或任务所需计算时间是非线性增加的
B.该问题或任务所需计算时间是线性增加的
C.图灵机不可停机
D.无法将该问题或任务所需数据一次性装入内存进行计算
不可求解=图灵机不可停机,凡是可计算的函数都能用图灵机计算,凡是存在有效过程的计算都能被图灵机实现2.下面哪一句话准确描述了摩尔定律(A )
A.摩尔定律描述了计算机的计算速度每一年半增长一倍的规律
B.摩尔定律描述了计算机内存大小随时间不断增长的规律
C.摩尔定律描述了互联网所链接节点随时间不断增长的规律
D.摩尔定律描述了计算机的体积大小随时间不断减少的规律3. 下面哪个方法于20世纪被提出来,用来描述对计算机智能水平进行测试(B )
A.费马定理
B.图灵测试
C.摩尔定律
D.香农定律4.1955年,麦卡锡、明斯基、香农和诺切斯特四位学者首次提出“artificial intelligence(人工智能)”这个概念时,希望人工智能研究的主题是( D )
A.人工智能伦理
B.避免计算机控制人类
C.全力研究人类大脑
D.用计算机来模拟人类智能
人工智能的主题是:让机器能像人那样认知思考和学习,即用计算机模拟人工智能5.下面哪一句话是正确的 ( D )
A.机器学习就是深度学习
B.人工智能就是机器学习
C.人工智能就是深度学习
D.深度学习是一种机器学习的方法机器学习可分为监督学习,无监督学习。区别在于监督学习的数据有标签,相当于只是做数据的区分。无监督学习没有数据标签,需要自己进行学习。
深度学习是机器学习的一种。
6. 以逻辑规则为核心的逻辑推理、以数据驱动为核心的机器学习和以问题引导为核心的强化学习是三种人工智能的方法,下面哪一句话的描述是不正确的( A)
A.目前以数据驱动为核心的机器学习方法可从任意大数据(无论数据是具备标签还是不具备标签)中来学习数据模式,完成给定任务
B.目前以数据驱动为核心的机器学习方法需要从具有标签的大数据中来学习数据模式,完成给定任务
C.强化学习的基本特征是智能体与环境不断进行交互,在交互过程不断学习来完成特定任务
D.以逻辑规则为核心的逻辑推理方法解释性强强化学习是和环境交互,得到某个行动的评价,然后找到最优路径。AlphaGo和人类棋手对弈就是强化学习。
7.下面对人类智能和机器智能的描述哪一句是不正确的( B )A.人类智能具备直觉和顿悟能力,机器智能很难具备这样的能力
B.人类智能和机器智能均具备常识,因此能够进行常识性推理
C.人类智能具有自适应特点,机器智能则大多是“依葫芦画瓢”
D.人类智能能够自我学习,机器智能大多是依靠数据和规则驱动8.我们常说“人类是智能回路的总开关”,即人类智能决定着任何智能的高度、广度和深度,下面哪一句话对这个观点的描述不正确( D )
A.机器智能和人类智能相互协同所产生的智能能力可超越人类智能或机器智能
B.机器智能目前无法完全模拟人类所有智能
C.人类智能是机器智能的设计者
D.机器智能目前已经超越了人类智能9.下面哪句话描述了现有深度学习这一种人工智能方法的特点( A )
A.小数据,大任务
B.大数据,大任务
C.大数据,小任务
D.小数据,小任务深度学习是有监督学习的一种,这个小大的描述很迷。
10.德国著名数学家希尔伯特在1900年举办的国际数学家大会中所提出的“算术公理的相容性 (the compatibility of the arithmetical axioms)”这一问题推动了可计算思想研究的深入。在希尔伯特所提出的这个问题中,一个算术公理系统是相容的需要满足三个特点。下面哪个描述不属于这三个特点之一( D )
A.完备性,即所有能够从该形式化系统推导出来的命题,都可以从这个形式化系统推导出来。
B. 一致性,即一个命题不可能同时为真或为假
C.可判定性,即算法在有限步内判定命题的真伪
D.复杂性,即算法性能与输入数据大小相关记住形式化系统的三个特征:可判断性,完备性,一致性。
第二章 命题与逻辑
析取:V
合取:
假言推理:
与消解:
与导入:
双重否定
消解、归结:,
FOIL算法
输入目标谓词,背景知识样例,正例和反例,得到推理结果。
比如Father(x,y)代表x是y的父亲,已知其他的谓词:Mother(x,y),Sibling(x,y),Couple(x,y)
已知样例和反例(比如A是B的父亲,A和C是couple=>则A不是C父亲为反例)
最后得到推理结果,例如:(Mother(x,y)VCouple(z,x))->Father(z,y)(x是y的母亲,zx为夫妻,则z是y的父亲)
伪代码:
while(推理规则覆盖任何反例)begin
对于所有未添加的规则,计算信息增益:
(m*是指新的,m是指之前的。)
选择信息增益最大的添加入推理规则
删去不符合推理规则的样例
end
如何计算信息增益:
对于一条规则,其和已知规则组合在一起,统计m+为正例数量,m-为反例数量。
比如Couple(x,y)的信息增益:当前没有已知信息,因此规则为
Couple(x,y)->Father(x,y)
Couple(x,z)->Father(x,y)
Couple(z,y)->Father(x,y)
....
这里有几个人就需要几个Couple,比如4个人,就有C(4,2)=6个式子,Father里的x,y是不变的
1.如果命题p为真、命题q为假,则下述哪个复合命题为真命题(C )
A. 如果p则qB. 非pC. 如果q则pD. p且q2.下面哪个复合命题与“如果秋天天气变凉,那么大雁南飞越冬”是逻辑等价的( B)
A.如果大雁不南飞越冬,那么秋天天气变凉
B.如果大雁不南飞越冬,那么秋天天气没有变凉
C. 如果秋天天气变凉,那么大雁不南飞越冬D. 如果秋天天气没有变凉,那么大雁不南飞越冬逆否命题等价
3.下面哪一句话对命题逻辑中的归结(resolution)规则的描述是不正确的( D )
A.在两个析取复合命题中,如果命题q及其反命题分别出现在这两个析取复合命题中,则通过归结法可得到一个新的析取复合命题,只是在析取复合命题中要去除命题q及其反命题。
B.对命题q及其反命题应用归结法,所得到的命题为假命题
C. 如果命题q出现在一个析取复合命题中,命题q的反命题单独存在,则通过归结法可得到一个新的析取复合命题,只是在析取复合命题中要去除命题q及其反命题。D. 对命题q及其反命题应用归结法,所得到的命题为空命题q及其反命题归结,得到的是![]()
4.下面哪一句话对命题范式的描述是不正确的( D )
A. 有限个简单合取式构成的析取式称为析取范式B.一个合取范式是成立的,当且仅当它的每个简单析取式都是成立的C. 有限个简单析取式构成的合取式称为合取范式D. 一个析取范式是不成立的,当且仅当它包含一个不成立的简单合取式析取是或,因此只要包含至少一个不成立即可。
5.下面哪个逻辑等价关系是不成立的( A )
A.
B.
C.
D.![]()
6.下面哪个谓词逻辑的推理规则是不成立的( C )
A.
B.
C.
D.![]()
7.知识图谱可视为包含多种关系的图。在图中,每个节点是一个实体(如人名、地名、事件和活动等),任意两个节点之间的边表示这两个节点之间存在的关系。下面对知识图谱的描述,哪一句话的描述不正确(B )
A. 知识图谱中的节点可以是实体或概念B. 知识图谱中两个节点之间仅能存在一条边C. 知识图谱中一条边可以用一个三元组来表示D. 知识图谱中一条边连接了两个节点,可以用来表示这两个节点存在某一关系8.如果知识图谱中有David和Mike两个节点,他们之间具有classmate和brother关系。在知识图谱中还存在其他丰富节点和丰富关系(如couple, parent等)前提下,下面描述不正确的是( A )
A. 仅可从知识图谱中找到classmate和brother这个谓词的正例,无法找到这两个谓词的反例。B. 可以从知识图谱中形成classmate<David, Mike>的表达,这里classmate是谓词。C.可以从知识图谱中形成brother<David, Mike>的表达,这里brother是谓词。
D. 可从知识图谱中找到classmate和brother这个谓词的正例和反例。如果存在Couple 或者其他的谓词关系就是反例。9.在一阶归纳学习中,只要给定目标谓词,FOIL算法从若干样例出发,不断测试所得到推理规则是否还包含反例,一旦不包含负例,则学习结束,展示了 “归纳学习”能力。下面所列出的哪个样例,不属于FOIL在学习推理规则中所利用的样例。
A. 信息增益超过一定阈值推理规则涵盖的例子B. 所得到推理规则涵盖的正例C. 背景知识样例D.所得到推理规则涵盖的反例注意样例中的反例逐渐被去除,正例可以选择加或者不加(书上并没有说要加)但是信息增益超过阈值的肯定不对,因为选的是最大的那一个,没有阈值之说。10.下面对一阶归纳推理(FOIL)中信息增益值(information gain)阐释不正确的是( B )
A. 信息增益值用来判断向推理规则中所加入前提约束谓词的质量。B. 信息增益值大小与背景知识样例数目有关。C. 在算法结束前,每次向推理规则中加入一个前提约束谓词,该前提约束谓词得到的新推理规则具有最大的信息增益值。D.在计算信息增益值过程中,需要利用所得到的新推理规则和旧推理规则分别涵盖的正例和反例数目。与正反例数目有关,与背景知识样例无关。(背景知识指的是不能既是父亲又是Couple这样的)
1.基于知识图谱的路径排序推理方法可属于如下哪一种方法( D )
A.因果推理
B.监督学习(即利用标注数据)
C.无监督学习(即无标注数据)
D.一阶逻辑推理
对已知的路径关系进行学习,如果是正例则为路径为1,如果是负例则路径为-1,因此为监督学习
2.下面哪个步骤不属于基于知识图谱的路径排序推理方法中的一个步骤( A)
A.定义和选择do算子操作
B.定义和选择若干标注训练数据
C.定义和选择某一特定的分类器
D.定义和选择训练数据的特征
定义do算子是干预因果关系
第三章 搜索求解
边缘集合:下一步用来搜索的点的集合
闭表:所有扩展过的结点的状态(已经被遍历)
扩展:将结点的后继结点加入边缘集合
广度优先:总是从边缘集合中取出最上层的点
深度优先:总是从边缘集合中取出最下层的点
搜索树的流程:
将根节点加入到边缘集合F
while(F非空) begin
1.从F中挑选一个结点n
2.将n从F中去除
3.if(n符合条件) return n.path
4.扩展n,将后继结点全部加入边缘集合
end
图搜索的流程:
将源节点加入到边缘集合F
将闭表C赋值为空
while(F非空) begin
1.从F中挑选一个结点n
2.将n从F中去除
3.if(n符合条件) return n.path
4.如果n没有被扩展,那么扩展n
将n加入闭表C
将n的所有未加入的后继结点加入边缘集合
end
剪枝搜索
对于某些结点并不进行扩展
启发式搜索
启发函数:h(n)表示结点n到目标结点的距离或者代价
评价函数:f(n)表示结点n挑选的优先度,若边缘集合中评价函数越小,优先级别越高
贪婪优先搜索
使得评价函数赋值为启发函数,即距离结果越近的结点越优先挑选。
A*搜索
定义结点到源点的距离或代价为g(x)
评价函数f(x)=g(x)+h(x)
评价函数是启发函数和离源点距离之和,保证了源点到目标结点的距离总是最小的。
对抗搜索
状态:player(s)给出了状态s下当前行动的智能体
动作:actions(s)给出了当前状态下智能体可进行的操作
状态转移:result(s,a)状态s通过动作a转移
终局得分和终局状态检测:给出玩家的得分和确定游戏是否结束
最大最小搜索
将自己的分数最大化即是将对手的分数最小化。由于终局的分数是评价某一个玩家的,另一个玩家的目标是必须使得终局的分数最小化,即将对手的分数最小化。
Alpha-Beta剪枝搜索
在边缘集合中挑选点的时候,往往会将其不断扩展直到终局以计算得分。
每一个结点的得分是这个结点边缘集合中的最优得分。
每个结点都有一个alpha值和beta值,根结点分别为负无穷和正无穷,其余结点继承根结点。
当alpha>beta时,结点不会被访问
MAX:
对于边缘层的每一个点a:
调用MIN得到这一点的分数。
如果分数大于目前最大值,则更新最优解和最大值
如果分数大于alpha,则更新alpha
如果alpha>beta则返回分数和最优解
MIN:
对于边缘层的每一个点a:
调用MAX得到这一点的分数。
如果分数小于目前最小值,则更新最优解和最小值
如果分数小于beta,则更新beta
如果alpha>beta则返回分数和最优解
赌博机问题
贪心算法:摇动某一个赌博机,由于其他赌博机的试验不足,因此估计误差较大(过度利用)
epsilon算法:epsilon的概率随机摇动,1-epsilon的概率摇动当前最优解。
UCB算法:根据选择的不确定度和得到的收益估计收益范围,选择收益的可能值较大的步骤,成为上限置信区间。当均值相同时,不确定度越大,上限越高。当不确定度类似时,均值越大,上限越高。
蒙特卡洛搜索树算法
选择:从根节点开始,递归选择当前UCB值最高的结点。直到找到一个未被扩展的结点。
扩展:随机扩展一个子节点。
模拟:随机模拟扩展该子节点直到终局
反向传播:根据终局的得分更新路径中的Q和N
1. 在启发式搜索(有信息搜索)中,评价函数的作用是(C)
A.判断搜索算法的空间复杂度
B.判断搜索算法的时间复杂度
C.从当前节点出发来选择后续节点
D.计算从当前节点到目标节点之间的最小代价值
评价函数评价每个后继结点离目标结点的距离,选择最优的结点
2.在启发式搜索(有信息搜索)中,启发函数的作用是(D)
A.从当前节点出发来选择后续节点
B.判断搜索算法的时间复杂度
C.判断搜索算法的空间复杂度
D.计算从当前节点到目标节点之间的最小代价值
3.在贪婪最佳优先搜索中,评价函数取值和启发函数取值之间的关系是( A )
A.相等
B.不等于
C.小于
D.大于
4.在A*搜索算法中,评价函数可以如下定义( C )
A.评价函数之值=(从起始节点出发到当前节点最小开销代价)/(从当前节点出发到目标结点最小开销代价)
B.评价函数之值=(从起始节点出发到当前节点最小开销代价)-(从当前节点出发到目标结点最小开销代价)
C.评价函数之值=(从起始节点出发到当前节点最小开销代价)+(从当前节点出发到目标结点最小开销代价)
D.评价函数之值=(从起始节点出发到当前节点最小开销代价)*(从当前节点出发到目标结点最小开销代价)
5.A*算法是一种有信息搜索算法,在最短路径搜索中引入的辅助信息是( B )
A.任意一个城市到起始城市之间直线距离
B.任意一个城市到目标城市之间直线距离
C.旅行者兴趣偏好信息
D.路途中天气和交通状况等信息
不清楚什么原因,辅助信息的意思是辅助智能体做出决策的信息,而A*算法考虑了每一个城市到目标距离和到源点的距离,个人决定AB都对
6.下面对Alpha-Beta剪枝搜索算法描述中,哪句描述是不正确的( D )
A.节点先后次序会影响剪枝效率
B.剪枝本身不影响算法输出结果
C.在大多数情况下,剪枝会提高算法效率
D.节点先后次序不会影响剪枝效率
显然剪枝的效率会和遍历的顺序有关
7.Alpha和Beta两个值在Alpha-Beta剪枝搜索中被用来判断某个节点的后续节点是否可被剪枝,下面对Alpha和Beta的初始化取值描述正确的是( C )
A.Alpha的初始值大于Beta的初始值
B.Alpha和Beta初始值分别为正无穷大和负无穷大
C. Alpha和Beta初始值分别为负无穷大和正无穷大
D.Alpha和Beta可随机初始化
8.下面对上限置信区间 (Upper Confidence Bound,UCB)算法在多臂赌博机中的描述,哪句描述是不正确的( A )
A.UCB算法每次随机选择一个赌博机来拉动其臂膀
B. UCB算法在探索-利用(exploration-exploitation)之间寻找平衡
C.UCB算法既考虑拉动在过去时间内获得最大平均奖赏的赌博机,又希望去选择那些拉动臂膀次数最少的赌博机
D.UCB算法是优化序列决策问题的方法
如果平均奖赏大,则均值高,如果拉动次数少,则不确定度大,拉动的时候考虑的是均值+不确定度,因此不是完全随机的
9.下面哪一种有序组合是蒙特卡洛树搜索中一次正确的迭代步骤(C )
A.扩展、模拟、采样、选举
B.反向传播、选举、扩展、模拟
C.选举、扩展、模拟、反向传播
D.反向传播、扩展、模拟、选举
10.下面对minimax搜索、alpha-beta剪枝搜索和蒙特卡洛树搜索的描述中,哪一句描述是不正确的( C )
A.三种搜索算法中,只有蒙特卡洛树搜索是采样搜索
B.minimax是穷举式搜索
C.对于一个规模较小的游戏树,alpha-beta剪枝搜索和minimax搜索的结果会不同
D. alpha-beta剪枝搜索和蒙特卡洛树搜索都是非穷举式搜索
第四章 监督学习
机器学习:一种人工智能方法,机器从数据中自动学习知识
机器学习目标:从数据中提取特征,并通过函数f映射到语义空间中,寻找数据和目标任务的关系
监督学习:输入数据带有标签,多用于回归和训练集,输出的取值是有限的
无监督学习:输入数据不带有标签,多用于聚类或降维
半监督学习:数据部分带有标签
强化学习:智能体和环境交互,环境反馈的回报能够对智能体下一次决策产生影响
损失函数:即映射值f(y)和真值之间的差距
机器学习的三个步骤:在训练集上学习映射函数f,在测试集上测试函数f,在未知数据集上测试f
经验风险:训练样本集的平均损失
期望风险:损失的数学期望。扩大训练集,经验风险会不断逼近期望风险
训练集上表现好:经验风险小
测试集上表现好:期望风险小
泛化能力强:期望风险和经验风险都小
过学习:期望风险大,经验风险小
欠学习:两个都大
结构风险最小化:经验风险加上一个正则化项(惩罚项),该项和学习系数有关,若系数太大则惩罚项也会大
回归分析
回归分析:分析不同变量间的关系
回归模型:不同变量之间的关系的模型
一元线性回归:线性回归对离群点敏感
多元线性回归:略
逻辑斯蒂回归:引入sigmoid函数作为回归函数
一般做二分类:即将数据集划分为正例和反例
对逻辑斯蒂回归的正例取对数就得到了线性回归模型
决策树
每个非叶子结点代表一种属性,每个分支代表一种选择,每个叶子结点代表一种分类结果
建立决策树的过程就是选择属性值对样本进行划分
划分属性的顺序对于构建决策树产生影响
信息熵:信息熵越大说明集合的纯度(具有相同属性的数据所占比重)越低
信息增益:划分样本集前后信息熵的减少量,用来衡量样本不确定度的减少量
Ada boosting
1.数据样本权重初始化
2.训练M个基带分类器
首先根据数据样本训练对应的分类器
计算分类误差
根据分类误差弱化分类器的权值
更新训练样本和训练器的权值
3.根据权值线性组合弱分类器,得到强分类器
1.下面哪一种机器学习方法没有利用标注数据( C )
A.半监督学习
B.有监督学习
C.无监督学习
D.回归分析
无监督学习没有标注数据
2.下面对经验风险和期望风险的描述中,哪一个属于欠学习( D )
A.经验风险小、期望风险小
B.经验风险大、期望风险小
C.经验风险小、期望风险大
D.经验风险大、期望风险大
欠学习指在训练集上和测试集上表现都不好
3.下面对经验风险和期望风险的描述中,哪一个属于过学习( D )
A.经验风险大、期望风险小
B.经验风险小、期望风险小
C.经验风险大、期望风险大
D.经验风险小、期望风险大
过学习指的是训练集上表现好,但是泛化能力差,在测试集上表现不好。
4.监督学习方法又可以分为生成方法(generative approach)和判别方法(discriminative approach)。下面哪个方法不属于判别方法(B )
A.回归模型
B.贝叶斯方法
C.神经网络
D.Ada boosting
生成方法:贝叶斯法,隐马尔科夫链法,其他的是判别方法
判别方法考虑的是条件概率,输入作为条件时每个输出的概率,选择最高的那个
生成方法考虑联合概率,即输入和输出的联合分布
5.下面哪句话语较为恰当刻画了监督学习方法中生成方法的特点( C )
A.毕其功于一役
B.三个臭皮匠、抵一个诸葛亮
C. 授之于鱼、不如授之于“渔”
D.屡败屡战、屡战屡败、最后成功
6.在线性回归模型中,所优化的目标函数是( A )
A.最小化残差平方和的均值
B.最大化结构风险
C.最大化残差平方和的均值
D.最小化结构风险
7.线性回归中优化目标函数的求取过程与下面哪一种方法是相同的( C)
A.最小化后验概率
B.最大后验概率
C.最小二乘法
D.最大似然估计
线性回归用到了最小二乘法
8.下面哪一句话对Ada Boosting的描述是不正确的( D )
A.在所构成的强分类器中,每个弱分类器的权重是不一样的
B.该算法将若干弱分类器线性加权组合起来,形成一个强分类器
C.在每一次训练弱分类器中,每个样本的权重累加起来等于1
D.在所构成的强分类器中,每个弱分类器的权重累加起来等于1
强分类器的弱分类器并不要求为1
9.下面哪一句话对概率近似正确 (probably approximately correct, PAC)的描述是不正确的 ( B )
A. 在概率近似正确背景下,有“强可学习模型”和“弱可学习模型”
B.强可学习模型指学习模型仅能完成若干部分样本识别与分类,其精度略高于随机猜测
C.强可学习模型指学习模型能够以较高精度对绝大多数样本完成识别分类任务
D.强可学习和弱可学习是等价的,即如果已经发现了“弱学习算法”,可将其提升(boosting)为“强学习算法”
强可学习指可以完成绝大多数样本的任务,弱可学习指的是完成部分样本任务
10.下面对回归和分类的描述不正确的是( D )
A.两者均是学习输入变量和输出变量之间潜在关系模型
B.在回归分析中,学习得到一个函数将输入变量映射到连续输出空间
C.在分类模型中,学习得到一个函数将输入变量映射到离散输出空间
D.回归是一种无监督学习、分类学习是有监督学习
都是有监督学习
第五章 无监督学习
k均值聚类
根据数据特征成分分类,簇内方差最小化。
要求特征变量连续,数据没有异常
易受初值影响,是局部最优。
通过减少簇内方差,实现簇内最大相似度。
收敛速度较快。
对于离群点较敏感。
硬聚类:只可能属于或者不属于一个聚类。即概率为0或者1
input:聚类数目和数据特征向量
初始化质心
while(未收敛)begin
1.对数据进行聚类(计算到K个质心的距离,放入最近的那个)
2.更新质心(将质心赋值为簇内数据的均值)
end
收敛条件是:
1.达到最大迭代次数
2.前后两次聚类质心保持不变
主成分分析
特征降维,用来消除噪声和冗余。
用数据的特征替代数据本身。
在数据方差最大的方向进行投影,使得最后数据的方差最大。
即将给定的n个数据减少到l个,保留原数据的特征。
input:n个d维向量,需要的特征向量个数l
output:特征向量
1.对向量去中心化(减去均值)
2.计算协方差矩阵
3.进行特征值分解,取特征值最大的前l个特征向量
协方差:如果等于0说明无关,如果大于0说明正相关,小于0说明负相关,绝对值越大说明相关性越强。
皮尔逊相关系数:将协方差归一化,取值为-1到1,0是无关,1是正相关,-1是负相关
相关性:比独立性更弱,如果不相关可能不独立,但是独立一定不相关。
特征人脸法
基于外观的人脸识别方法。
能够提取人脸的全局信息,但是对于细节表现不够。
input:样本人脸向量(转换为一个列向量)k维
output:特征人脸向量
1.计算均值人脸,并将样本人脸去中心化
2.对样本组成的矩阵进行奇异值分解,计算特征向量(得到和样本数一样多的特征人脸向量,取特征值最大的前n个)k,n维
3.将样本人脸向量行向量(1,k维)和n个特征向量组成的矩阵相乘(k,n维),可以得到特征人脸空间
潜在语义分析
从文本数据中学习单词,文档之间的关系。得到单词和文本的表达特征。
考虑单词在哪些文档中同时出现,以此来决定该词语的含义和其他词语的相似度
得到一个文档-单词关系的重建矩阵。
重建矩阵和原矩阵不一定相同,
重建矩阵捕获了单词-文档的关系,
重建矩阵中单词的分布可能和原矩阵中一致。
归属一文档的单词在重建矩阵中的值较为相近。
input:文档和关键单词
output:重建矩阵
1.得到文档单词矩阵:行列分别为文档和单词,如果文档中出现了该单词,则值为1,否则值为0.
2.将文档单词矩阵SVD分解为
的形式,D是一个对角阵
单词向量:U的每一行称为单词向量
文档向量:V的每一行称为文档向量,注意分解得到的是V的转置
D表示了一个隐藏的空间,代表了单词和文档的关系
3.重建:选取D最大的几个特征值和特征向量对A进行重建。
重建后矩阵的值反应了文档和关键词的相关性。
1.由于K均值聚类是一个迭代过程,我们需要设置其迭代终止条件。下面哪句话正确描述了K均值聚类的迭代终止条件( A )
A.已经达到了迭代次数上限,或者前后两次迭代中聚类质心基本保持不变
B.已经达到了迭代次数上限,或者每个待聚类样本分别归属唯一一个聚类集合
C.已经形成了K个聚类集合,或者已经达到了迭代次数上限
D.已经形成了K个聚类集合,或者每个待聚类样本分别归属唯一一个聚类集合
2.我们可以从最小化每个类簇的方差这一视角来解释K均值聚类的结果,下面对这一视角描述不正确的是( B )
A.最终聚类结果中每个聚类集合中所包含数据呈现出来差异性最小
B.每个簇类的质心累加起来最小
C.每个样本数据分别归属于与其距离最近的聚类质心所在聚类集合
D.每个簇类的方差累加起来最小
K均值聚类保证簇内方差最小,和质心大小没有关系
3.下面哪一句话描述不属于K均值聚类算法的不足( D )
A.算法迭代执行
B.需要事先确定聚类数目
C.需要初始化聚类质心
D.K均值聚类是无监督聚类
四个选项描述都正确,但是D不算不足
4.下面对数据样本方差解释不正确的是( C )
A.方差描述了样本数据在平均值附近的波动程度
B.方差(样本方差)是每个样本数据与全体样本数据平均值之差的平方和的平均数
C.方差刻画了样本数据的大小
D.方差刻画了随机变量或一组数据离散程度
方差和样本大小无关,表现的是离散程度
5.协方差可以用来计算两个变量之间的相关性,或者说计算两维样本数据中两个维度之间的相关性。基于计算所得的协方差值,可以来判断样本数据中两维变量之间是否存在关联关系。下面哪一个说法是不正确的( C )
A.当协方差值小于0 时,则两个变量线性负相关
B.当协方差值等于0 时,则两个变量线性不相关
C.当协方差值等于0 时,则两个变量线性正相关
D.当协方差值大于0 时,则两个变量线性正相关
等于0时无关。
6.皮尔逊相关系数(Pearson Correlation coefficient )可将两组变量之间的关联度规整到一定的取值范围内。下面对皮尔逊相关系数描述不正确的是( D )
A.皮尔逊相关系数的值域是[-1,1]
B.皮尔逊相关系数等于1的充要条件是该两组变量具有线性相关关系
C.皮尔逊相关系数是对称的
D.皮尔逊相关系数刻画了两组变量之间线性相关程度,如果其取值越大,则两者在线性相关的意义下相关程度越大;如果其值越小,表示两者在线性相关的意义下相关程度越小
对称意味着Cov(x,y)=Cov(y,x)
感觉B好像也不对,因为-1是负相关。
7.下面对相关性(correlation)和独立性(independence)描述不正确的是( C )
A.如果两维变量彼此独立,则皮尔逊相关系数等于0
B.如果两维变量线性不相关,则皮尔逊相关系数等于0
C.“不相关”是一个比“独立”要强的概念,即不相关一定相互独立
D.独立指两个变量彼此之间不相互影响
不相关比独立要弱。
8.下面对主成分分析的描述不正确的是( D )
A.在主成分分析中,将数据向方差最大方向进行投影,可使得数据所蕴含信息没有丢失,以便在后续处理过程中各个数据“彰显个性”
B.主成份分析是一种特征降维方法
C.主成分分析可保证原始高维样本数据被投影映射后,其方差保持最大
D.在主成分分析中,所得低维数据中每一维度之间具有极大相关度
主成分分析是在方差最大的地方投影,使得数据方差最大,因此每一维代表不同的特征,相关性不大。
9.在主成分分析中,我们将带约束的最优化问题,通过拉格朗日乘子法将其转化为无约束最优化问题。下面对主成分分析中优化的目标函数和约束条件描述正确的是 ( B )
A.保证映射投影(即降维后)所得结果相关度最大以及投影后结果方差最大
B.保证映射投影(即降维后)所得结果方差最大以及投影方向正交(以去除冗余度)
C.保证映射投影方向之间的方差最大以及投影方向正交(以去除冗余度)
D.保证映射投影(即降维后)所得结果冗余度最小以及投影后结果方差最大
条件是在方差最大的方向正交投影,所有与方差最大方向垂直的不同都被忽略。
10.下面对特征人脸算法描述不正确的是( A )
A.特征人脸之间的相关度要尽可能大
B.特征人脸方法是用一种称为“特征人脸(eigenface)”的特征向量按照线性组合形式来表达每一张原始人脸图像
C.特征人脸方法是一种应用主成分分析来实现人脸图像降维的方法
D.每一个特征人脸的维数与原始人脸图像的维数一样大
相关度没有要求。
加油还有两章!
第六章 深度学习
前馈神经网络
前馈神经网络: 最基本的神经网络,包括输入层,输出层,隐藏层
每层指和相邻的神经元相连,只从相邻的前序神经元接受信息,只传输信息给相邻的后序神经元,邻序神经元不相连。
神经元:输入数据,线性加权求和后如果达到阈值则输出1,否则输出-1
激活函数:要求连续可导,非线性。将输入数据映射到语义空间。
sigmoid函数:输出为(0,1),可直接作为概率。单增。会有梯度消失的问题。
ReLU函数:,克服梯度消失的问题,x<0时神经元稀疏,克服过拟合问题。
损失函数:计算模型估计值和真实值之间的差距。
交叉熵:两个概率分布之间的距离,交叉熵越小,概率分布越接近。
梯度下降:用来优化参数,损失函数的梯度反方向是损失误差下降最快的地方,因此每一次将自变量的值减小为k倍的梯度值就可以减小损失函数的值
反向传播:利用损失函数预测的结果和真实结果之间的差距优化参数,将参数按照损失函数梯度的反方向选取一个微小增量,使得损失函数的值减小。梯度的系数称为学习率,影响模型的收敛速度。
卷积神经网络
卷积核:二维矩阵,用来对子像素块卷积计算时的权值。
特征图:卷积滤波的结果
下采样:减少图像的像素个数。
Padding:对于边缘像素块卷积时,不存在的部分用0代替
Stride:卷积核每隔k个步长进行卷积。
池化:某一区域子块的统计值代替区块的值,有最大池化,平均池化,K最大池化(取K个最大值,用在处理文本上)
正则化
防止过拟合,提升泛化能力。
Dropout:每次训练的过程中,以一定概率屏蔽某些神经元
批归一化:将神经元的输入改为标准正态分布
正则化:在损失函数中加入正则化项,正则化一般是参数w0,w1,...wi的范数。
1在神经网络学习中,每个神经元会完成若干功能,下面哪个功能不是神经元所能够完成的功能(A )
A.向前序相邻神经元反馈加权累加信息
B.对前序相邻神经元所传递信息进行加权累加
C.对加权累加信息进行非线性变化(通过激活函数)
D.将加权累加信息向后续相邻神经元传递
向后序神经元传递
2下面对前馈神经网络描述不正确的是( C )
A.同一层内的神经元相互不连接
B.各个神经元接受前一级神经元的输入,并输出到下一级
C.同一层内神经元之间存在全连接
D.层与层之间通过“全连接”进行连接,即两个相邻层之间神经元完全成对连接
接受前序神经元的信息传递给后序神经元,相邻层全连接,但是同一层没有连接。
3下面对感知机网络(Perceptron Networks)描述不正确的是(D )
A.感知机网络不能拟合复杂数据
B.感知机网络没有隐藏层
C.感知机网络是一种特殊的前馈神经网络
D.感知机网络具有一层隐藏层
单层感知机没有隐藏层
4下面对梯度下降方法描述不正确的是( D )
A.梯度下降算法是一种使得损失函数最小化的方法
B.梯度反方向是函数值下降最快方向
C.梯度下降算法用来优化深度学习模型的参数
D.梯度方向是函数值下降最快方向
5下面对误差反向传播 (error back propagation, BP)描述不正确的是(C )
A.对前馈神经网络而言,BP算法可调整相邻层神经元之间的连接权重大小
B.BP算法是一种将输出层误差反向传播给隐藏层进行参数更新的方法
C.在BP算法中,每个神经元单元可包含不可偏导的映射函数
D.BP算法将误差从后向前传递,获得各层单元所产生误差,进而依据这个误差来让各层单元修正各单元参数
没有要求神经元不可求偏导
6我们可以将深度学习看成一种端到端的学习方法,这里的端到端指的是( B )
A.中间端-中间端
B.输入端-输出端
C.输入端-中间端
D.输出端-中间端
7在前馈神经网络中,误差后向传播(BP算法)将误差从输出端向输入端进行传输的过程中,算法会调整前馈神经网络的什么参数( B )
A.同一层神经元之间的连接权重
B.相邻层神经元和神经元之间的连接权重
C.神经元和神经元之间连接有无
D.输入数据大小
8前馈神经网络通过误差后向传播(BP算法)进行参数学习,这是一种( B )机器学习手段
A.无监督学习
B.监督学习
C.无监督学习和监督学习的结合
D.半监督学习
9面对前馈神经网络这种深度学习方法描述不正确的是( D )
A.是一种端到端学习的方法
B.实现了非线性映射
C.是一种监督学习的方法
D.隐藏层数目大小对学习性能影响不大
10下面对浅层学习和深度学习描述不正确的是( C )
A.K-means聚类是一种浅层学习方法
B.包含了若干隐藏层的前馈神经网络是一种深度学习方法
C.浅层学习仅能实现线性映射、深度学习可以实现非线性映射
D.线性回归分析是一种浅层学习方法
1.卷积操作是卷积神经网络所具备的一个重要功能,对一幅图像进行高斯卷积操作的作用是( D )
A.对图像进行分类
B.对图像进行裁剪
C.对图像进行增强
D.对图像进行平滑(模糊化)
2对完成特定任务的卷积神经网络训练采用的是监督学习方法。在这个过程中,通过误差后向传播来优化调整网络参数,请问下面哪个参数不是通过误差后向传播来优化的( A )
A.模型的隐藏层数目
B.全连接层的链接权重
C.卷积滤波矩阵中的参数
D.激活函数中的参数
A是训练开始前就已经确定的。
3下面哪个作用是池化(pooling)层所完成的( B )
得分/总分
A.上采样
B.下采样
C.图像裁剪
D.图像增强
4假设我们需要训练一个卷积神经网络,来完成500种概念的图像分类。该卷积神经网络最后一层是分类层,则最后一层输出向量的维数大小可能是( B )
A.1
B.500
C.300
D.100
输出的应该是图像属于n个图片的概率。
6前馈神经网络和卷积神经网络的模型学习均是通过误差后向传播来优化模型参数,因此是一种监督学习方法。
T
图像必须带有标签
7一般而言,在深度学习模型中,层数越多,其完成的非线性映射就越复杂,因此模型就具有更强的学习能力。
T
9卷积神经网络一般包括卷积层、池化层、全连接层,一般激活函数在卷积层后进行使用。
T
我的理解是:卷积层是对图像的信息提取,而激活函数是特征提取以后学习用的。
10在使用卷积神经网络对图像分类中,一般将最后一层全连接层(即与输出层相连的全连接层)的输出作为每幅图像的特征表达。T
第七章 强化学习
强化学习的反馈并不是一开始就确定的,而是在与环境的交互中不断产生新的反馈
马尔可夫性:下一个状态X只与当前状态有关。
马尔可夫链:满足马尔可夫性的随机变量序列。
马尔可夫决策过程:(S,A,P,R,gamma)S是状态集合,A是动作集合,P状态转移概率是采取动作a后进入状态S2的概率,R奖励函数是S1状态采取动作a进入状态S2后所得的奖励,gamma是折扣因子。
轨迹:从初始状态S0,S1,....的状态序列。包含终止状态时称为分段,不包含终止状态时称为持续
价值函数:智能体在状态s时采用策略pi所得的回报的期望。强化学习的定义:给定马尔可夫决策过程,得到策略pi,使得任意状态下价值函数的取值最大。
1下面对强化学习、监督学习和深度卷积神经网络学习的描述正确的是( D )
A评估学习方式、端到端学习方式、端到端学习方式
B.有标注信息学习方式、端到端学习方式、端到端学习方式
C.无标注学习、有标注信息学习方式、端到端学习方式
D.评估学习方式、有标注信息学习方式、端到端学习方式
2在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力( D )
A.动态规划
B.Bellman方程
C.蒙特卡洛采样
D.贪心策略
3深度强化学习是深度学习与强化学习的结合。在深度强化学习中,神经网络被用来进行哪个函数的学习?D
A.蒙特卡洛采样函数
B.Bellman方程
C.贪心策略函数
D.q函数
4与马尔可夫奖励过程相比,马尔可夫决策过程引入了哪一个新的元素( B )?
A.终止状态
B.动作
C.概率转移矩阵
D.反馈
5在本课程所讲述的范围内,“在状态s,选择一个动作,使得状态s得到最大的反馈期望”,这句话描述了状态s的( A )
A.策略学习与优化
B.动作-价值函数
C.价值函数
D.采样函数
6在本课程内容范围内,“在状态s,按照某个策略行动后在未来所获得反馈值的期望”,这句话描述了状态s的( D )
A.采样函数
B.策略优化
C.动作-价值函数
D.价值函数
7在本课程内容范围内,“在状态s,按照某个策略采取动作a后在未来所获得反馈值的期望”,这句话描述了状态s的( D )
A.价值函数
B.采样函数
C.策略优化
D.动作-价值函数
8下面哪句话正确描述了马尔科夫链中定义的马尔可夫性( B )
A.t+1时刻状态和t时刻状态相互独立
B.t+1时刻状态取决于t时刻状态
C.t-1时刻状态取决于t+1时刻状态
D.t+2时刻状态取决于t时刻状态
9下面对强化学习、有监督学习和无监督学习描述正确的是( C )
A.都不需要标注信息
B.都需要标注数据
C.都是人工智能的学习算法
D.都是深度学习的学习算法
10下面哪一种方法不是通过迭代计算贝尔曼方程来进行策略评估( B )
A.动态规划
B.深度学习
C.时序差分(Temporal Difference)
D.蒙特卡洛采样