1.典型的“鸡尾酒会”问题中,提取出不同人说话的声音是属于
编号 | 选项 |
---|---|
A | 强化学习 |
B | 非监督学习 |
C | 监督学习 |
D | 线性回归 |
2.____有跟环境进行交互,从反馈当中进行不断的学习的过程
编号 | 选项 |
---|---|
A | 非监督学习 |
B | 监督学习 |
C | 线性回归 |
D | 强化学习 |
3.在Q-Learning中,所谓的Q函数是指
编号 | 选项 |
---|---|
A | 状态值函数 |
B | 状态动作函数 |
C | 动作值函数 |
D | 策略函数 |
4.Q函数Q(s, a)是指在一个给定状态s下,采取某一个动作a之后,后续的各个状态所能得到的回报的___。
编号 | 选项 |
---|---|
A | 期望值 |
B | 最小值 |
C | 最大值 |
D | 总和 |
5.在强化学习的过程中,学习率α越大,表示采用新的尝试得到的结果比例越____,保持旧的结果的比例越____。
编号 | 选项 |
---|---|
A | 大;小 |
B | 大;大 |
C | 小;大 |
D | 小;小 |
6.在ε-greedy策略当中,ε的值越大,表示采用随机的一个动作的概率越____,采用当前Q函数值最大的动作的概率越____。
编号 | 选项 |
---|---|
A | 小;大 |
B | 小;小 |
C | 大;大 |
D | 大;小 |
7.在强化学习过程中,____表示随机地采取某个动作,以便于尝试各种结果;____表示采取当前认为最优的动作,以便于进一步优化评估当前认为最优的动作的值。
编号 | 选项 |
---|---|
A | 探索;探索 |
B | 探索;开发 |
C | 开发;开发 |
D | 开发;探索 |
8.用于监督分类的算法有
编号 | 选项 |
---|---|
A | 神经网络 |
B | 支持向量机 |
C | 线性回归 |
D | 决策树 |
9.在强化学习中,主体和环境之间交互的要素有
编号 | 选项 |
---|---|
A | 动作 |
B | 状态 |
C | 强化 |
D | 回报 |
10.在支持向量机分类算法中,用于支撑两个类别最宽分解线的这些样本点称为_______
支持向量