最近工作总结(一)（2019.12.09）

ma_studd

于 2020-11-19 10:53:15 发布

阅读量190

点赞数

分类专栏：神经网络 CNN 文章标签：深度学习

本文链接：https://blog.csdn.net/u013920434/article/details/109804304

版权

神经网络同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

CNN

8 篇文章 0 订阅

订阅专栏

本文总结了作者近期的工作重点，包括将分割方法应用于偏振图像，研究深度学习新进展如GAN和强化学习，并探讨元学习。深入介绍了强化学习的基本概念、模型和算法，强调其与监督学习的区别。此外，还讨论了组织学图像拼接、视觉显著性检测以及在Visual Studio中使用OpenCV遇到的问题和解决方案。

摘要由CSDN通过智能技术生成

1. 下一个方向：

a. 将之前的分割方法应用到偏振图像中；

b. 如何结合目前最新的神经网络（GAN，膨胀卷积，增强学习，何恺明的最新文章）；

c. silu给的染色图像和偏振图像的配准，然后再拼接（shaojun的项目）；

d. zhuyuanhuan的30张图像对齐的问题；

e. 元学习（meta learning）；

2. 强化学习（Reinforcement learning, RL）: 又称为再励学习，评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体在与环境的交互过程中通过学习策略以达到回报最大化或实现特定目标的问题。

强化学习的常见模型是标准的马尔可夫决策过程（Markov Decision Process，MDP），按给定条件，强化学习可以分为基于模式的强化学习（model-based RL），无模式强化学习(model-free RL)，以及主动强化学习（active RL）和被动强化学习（passive RL）。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数（value function）算法两类。深度学习模型可以在强化学习中得到应用，形成深度强化学习。

强化学习理论受到行为主义心理学启发，侧重在线学习并试图在探索-利用（exploration-exploitation）之间保持平衡，不同于监督学习和非监督学习，强化学习不要求预先给定任何数据，而是通过接收环境对动作的奖励（反馈）获得学习信息并更新模型参数。

强化学习问题在信息论、博弈论、自动控制等领域有得到讨论，被用于解释有限理性条件下的平衡态，设计推荐系统和机器人交互系统，一些复杂的强化学习算法在一定程度上具备解决复杂问题的通用只能，可以在围棋和电子游戏中达到人类水平。

强化学习是智能体（Agent）以试错的方式进行学习，通过与环境进行交互获得的奖赏指导行为，目标是使智能体获得最大的奖赏，强化学习不同于连接主义学习中的监督学习，主要表现在强化信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价（通常为标量信号），而不是告诉强化学习系统RLS（reinforcement learning system）如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习，通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。

强化学习从动物学习、参数扰动、自适应控制等理论发展而来，其基本原理是：

如果Agent的某个行为策略导致环境正的奖赏（强化信号），那么Agent以后产生这个行为策略的趋势便会加强，Agent的目标是在每个离散状态发现最有策略以使得期望的折扣奖赏和最大。

强化学习把学习看做是试探评价过程，Agent选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号（奖赏或惩罚）反馈给Agent，Agent根据强化信号和环境当前状态再选择下一个动作，选择的原则是使收到正强化（奖）的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是Agent对所产生动作的好坏作一种评价（通常为标量信号），而不是告诉Agent如何去产生正确的动作，由于外部环境提供了很少的信息，Agent必须靠自身的经历进行学习。通过这种方式，Agent在行动一一评价的环境中获得知识，改进行动方案以适应环境。

强化学习系统学习的目标是动态地调整参数，以达到强化信号最大。若已知r/A梯度信息，则可以直接使用监督学习算法。因为强化信号r与Agent产生的动作A没有明确的函数形式描述，所以梯度信息r/A无法得到。因此，在强化学习系统中，需要某种随机单元，使用这种随机单元，Agent在可能动作空间中进行搜索并发现正确的动作。

3. 2019年12月12日，调研文献后发现有关组织学（组织病理学）图像的拼接（Mosaic, stitching）的文献比较少，所以后面可以作为一个研究方向。montage: 蒙太奇。

4. 视觉显著性检测：
a. 视觉显著性检测（Visual Saliency Detection）指通过智能算法模拟人的视觉特点，提取图像中的显著区域（即人类感兴趣的区域）；

b. 视觉注意机制（Visual attention Mechanism, VA），即面对一个场景时，人类自动地对感兴趣区域进行处理而选择性地忽略不感兴趣区域，这些人们感兴趣的区域被称之为显著性区域。

人类视觉注意机制有两种策略：

a. 自底而上基于数据驱动的注意机制：仅受感知数据的驱动，将人的视点指导到场景中的显著区域，通常与周围具有较强对比度或与周围有明显不同的区域吸引自下而上的注意。利用图像的颜色、亮度、边缘等特征表示，判断目标区域和它周围像素的差异，进而计算图像区域的显著性。图2为自下而上的注意，第一列浅灰色条和第二列的竖直摆放的条形能立即引起人的注意；

b. 自上而下基于任务驱动的目标注意机制：由人的认知因素决定，比如知识、预期和当前的目标，对图像的特定特征来计算图像区域的显著性，图3为自上而下的注意，监控任务下，场景中的人体能引起注意。

c. 目前的显著性检测模型主要包括：基于认知，贝叶斯，决策论，信息论，图模型，频域分析，模式分类等。

5. visual studio中添加子文件夹中.h文件的方法：

#include “..\CmLib\CmDefinition.h”

6. Visual Studio中对项目工程添加DLL引用的方法：