cs231n
文章平均质量分 78
magic-hl
这个作者很懒,什么都没留下…
展开
-
cs231n:Lecture 14: Robot Learning
3. **探索与利用:** 强化学习中经常涉及到探索与利用的平衡。2. **延迟奖励:** 在强化学习中,代理的决策可能会在未来时间步产生影响。4. **环境动态性:** 在强化学习中,环境可能是非静态和动态的,而在监督学习中通常假设训练和测试数据的分布是相同的。2. **演员-评论家方法**:训练一个演员(预测动作,类似策略梯度)和一个评论家(预测采取这些动作后我们获得的未来奖励,类似Q学习)。3. **模仿学习**:收集关于专家在环境中的表现的数据,学习一个函数来模仿他们的行为(监督学习方法)。原创 2023-12-10 15:14:26 · 716 阅读 · 0 评论 -
cs231n: Lecture 13: Self-supervised Learning
自监督学习- 两者的目标都是从数据中学习,而无需手动标注标签。- 自监督学习方法解决“预文本”任务,这些任务产生了对下游任务有用的特征。- 通过监督学习目标进行学习,例如分类、回归。- 这些预文本任务的标签是自动生成的。自监督预文本任务1. 解决预文本任务使模型学习到良好的特征。2. 我们可以自动生成预文本任务的标签。左图:根据记忆绘制的一美元纸币。右图:在有一美元纸币在场的情况下随后绘制的图。图片来源:Epstein, 2016学习生成像素级细节通常是不必要的;原创 2023-12-10 10:02:54 · 592 阅读 · 0 评论 -
cs231n:Lecture 12: Visualizing and Understanding
与合成图像以最大化特定神经元的方法不同,DeepDream试图在网络的某一层中增强神经元的激活。- 有导向的反向传播生成图像。- 通过反向传播实现显著性。- 可视化最终层的特征。- 梯度上升可视化特征。DeepDream: 增强现有特征。1. 前向传播:计算所选层的激活。2. 将所选层的梯度设置为其激活。3. 反向传播:计算图像的梯度。卷积内部发生了什么?原创 2023-12-09 17:27:21 · 124 阅读 · 0 评论 -
cs231n:Lecture 10: Video Understanding
这指的是通过视觉信息来引导音频信号的分离,即使用图像或视频信息来帮助区分和提取音频中的不同声源。思路是:取一个2D卷积神经网络架构,将其中的每个2D Kh x Kw 卷积/池化层替换为3D Kt x Kh x Kw 的版本。时空检测(Spatio-Temporal Detection)指的是在长时间未剪辑的视频中,同时在时空中检测所有的人,并对他们执行的活动进行分类。时序动作定位(Temporal Action Localization)指的是在长时间未剪辑的视频序列中,识别对应于不同动作的帧。原创 2023-12-09 12:19:19 · 845 阅读 · 0 评论 -
CS231n:Lecture 9: Attention and Transformers
问题:输入序列通过固定大小的向量进行瓶颈处理。如果 T=1000 呢?在 sequence-to-sequence 模型中,指的是将输入序列通过一个固定大小的向量进行编码(通常是通过编码器),形成一个固定维度的表示。问题中提到 T=1000,表示输入序列的长度为 1000。这样的情况下,如果采用固定大小的向量进行编码,可能会导致信息的丢失或者信息压缩过度,因为无法充分表示较长的输入序列。这就是所谓的“瓶颈处理”,即通过将输入映射到固定大小的向量,可能会限制模型对长序列的处理能力。原创 2023-12-09 11:03:48 · 495 阅读 · 0 评论