深度学习技术在不同方向的应用及相关开源项目

 

深度学习的应用

深度学习是机器学习的一个分支,它除了可以学习特征和任务之间的关联以外,还能自动从简单特征中提取更加复杂的特征,完成对目标函数的拟合任务。随着神经网络的盛行,深度学习被应用到很多的领域,本文主要根据深度学习的技术类别和深度学习的应用场景两个方面进行说明。

 1. 技术类型

根据网络模型参数的确定方法,深度学习技术可以分为监督学习技术、非监督学习技术和增强学习技术三类。其中监督深度学习技术中网络模型参数是利用带标注的训练数据对网络进行训练而得到的,非监督深度学习技术中网络模型参数的确定则无需带标注的训练数据,增强深度学习技术中网络模型参数是利用特定评分策略对网络输出进行评分后确定的。

1.1 监督深度学习技术

监督深度学习技术主要包括多层感知器、卷积神经网络和循环神经网络等。多层感知器技术是早期神经网络研究的基础性成果,也是衡量深度神经网络性能的对比参照基础;卷积神经网络包括分类网络、检测网络、分割网络、跟踪网络 和轻量化网络;循环神经网络主要包括长时短期记网络和门限循环单元网络。

一般情况下,卷积神经网络均属于前馈神经网络,信息按神经元在网络中层次由浅至深地进行处理,而层次较浅的神经元参数不会受到层次较深的神经元输出的控制,即网络没有记忆,因此通常不适用于序列学习。循环神经网络引入了深层神经元输出到浅层神经元输入和状态的控制机制,使网络具有记忆功能,更适用于序列学习。由于绝大部分经典自然语言处理任务均属于序列学习的范畴,因此,循环神经网络在自然语言处理领域取得了广泛的应用。经典的循环神经 网络主要包括长时短期记忆网络系和门限循环单元网络。

1.2 非监督深度学习技术

非监督深度学习技术主要包括玻尔兹曼机、自编码器和生成对抗网络等。虽然可以使用监督学习的方式训练网络,但受限玻尔兹曼机通常被视为一种早期经典的深度非监督学习技术。自编码器能够通过无监督学习,生成输入数据低维表示、可用于数据的去噪、降维和特征表示等任务。自编码器一般均是采用编码器-译码器结构,实现自监督学习,主要包括VAE、Stacked Denoising AE 和 Transforming AE 等技术。生成对抗网络是近年来非监督深度学习技术的研究 热点之一,主要包括GAN、CGAN、WGAN、 EBGAN、infoGAN、BigGAN 和 SimGAN 等。生成对抗网络的主要思想是利用生成模型和分辨模型之间的竞争关系,在网络损失度量中包含利于一个模型而不利于另一模型的部分,训练过程使生成模型输出将输入噪声信号尽可能逼近信息输入,而同时提高分辨模型分类与生成模型信息输出与输入的正确性,从而达到网络整体性能的优化。

1.3 增强深度学习技术

增强深度学习技术主要包括Q学习和策略梯度学习。Q学习的核心思想是利用深度神经网络,逼近贝尔曼方程描述的递归约束关系。Q学习算法一般采用估计、决策和更新的迭代过程, 经典的估计方法有蒙特卡洛树搜索算法、动态规划算法等,基本的Q学习方法有DQN、Double DQN、Prioritized DQN 和 DRQN 等。策略梯度 学习的基本方法是利用深度神经网络,实现策略的参数化,并通过梯度优化控制参数权重,选择较好的行为实现策略,常用的策略梯度有有限差分策略梯度、蒙特卡洛策略梯度、Actor- Critic 策略梯度等,主要的策略梯度学习方法有REINFORCE、TRPO、DGP、DDGP 等。

2. 应用场景及问题

2.1 多分类问题:

2.1.1 图像分类:

图像分类任务是模型根据输入的图像进行预估。比如Esteva 等基于 Inception v3 主干网络,直接使用多达13万份带标注的临床影像数据来训练,训练任务是检验该深度神经网络对于皮肤癌分类预估的性能。

深度学习在医学图像分类中的应用:(开源地址:https://github.com/21Vipin/Medical-Image-Classification-using-deep-learning

2.1.2 文本分类:

文本分类是在NLP中很重要的模块。也是NLP任务中比较基础的模块。可以应用到很多领域:比如情感分析,新闻分类,垃圾邮件过滤等等。应用是非常广泛的。

医疗领域的文本数据还涉及到大量的领域内部命名实体、行业术语及表述习惯等问题,因此基于深度学习的自然语言处理在医疗领域的应用相比而言成熟度较低。

从医学实验室报告的图像中检测和识别文本的测试代码(开源地址:https://github.com/xuewenyuan/OCR-for-Medical-Laboratory-Reports

手写体识别(开源地址:https://github.com/0x454447415244/HandwritingRecognitionSystem

文本分类中单词和标签的联合嵌入(论文开源地址https://github.com/guoyinwang/LEAM)增加标签对于文本分类中的影响

2.1.3 文本数据挖掘以及诊断报告的生成

文本数据挖掘可以应用于电子病历结构化、临床决策支持、异常事件检测、信息语义化检索等场景。

在医疗领域的应用有:Borjali 等人探索了采用深度学习方法从纯文本的医疗报告中提取相关信息,完成对医疗不良事件的检测统计工作,并以髋关节置换术后脱位的案例进行试验。Wu等人将自动图像描述应用在糖尿病视网膜眼底图像的诊断上,作者直接使用经典CNN-LSTM网络结构,即首先使CNN抽取特征,再依据特征使LSTM 生成对应的文字描述,作者的训练数据集使用370张临床眼底图像,并对每张图像人工添加5种自然语言描述作为标注,其测试结果显示对病变眼底图像生成的报告准确度能达到 90%,但当测试集包含正常眼底图像后,整体准确度下降到只有60%左右。

使用深度学习从临床笔记(在 MIMIC-III 数据集中)预测医疗账单代码:(开源地址:https://github.com/ziyuqiu/icd_prediction开源地址:https://github.com/asyzhejian/DeepLearning_Electronic_Medical_Record

2.1.4 视频分类:

在做视频分类时候,直接使用3x3x3卷积核可能会产生参数过多、运算量过大的情况,难以训练等诸多问题,所以一般会分解为 1x3x3 的 spatial convolution 以及 3x1x1 的 temporal convolution。

论文:SmallBigNet: Integrating Core and Contextual Views for Video Classification(论文开源代码https://github.com/xhl-video/SmallBigNet

2.1.5时序信号分类:

深度学习在绝大多数场景都能够完成端到端的学习任务,在使用深度学习处理时序信号时,可以直接将原始信号输入到深度神经网络中训练模型优化目标任务。Acharya 实现了对 ECG 信号心率失常疾病中 4 种类型进行分类。

处理时序信号(开源地址:https://github.com/kevinlu1211/pytorch-suggestive-annotation-a-deep-active-learning-framework-for-biomedical-image-segmentation

2.1.6 3D点云分类:

训练分类网络时,该模型会自动优化和增强点云样本以丰富数据多样性。与现有的 2D 图像自动增强方法不同,PointAugment 具有样本感知能力,并采用对抗学习策略来联合优化增强器网络和分类器网络,使增强器可以学习生成最适合分类器的增强样本。

论文:PointAugment: an Auto-Augmentation Framework for Point Cloud Classification(论文开源地址:https://github.com/liruihui/PointAugment

2.2 目标检测问题:

目标识别任务用于对图像中特定结构或模式进行检测,并标示出对应目标的位置信息。在深度学习中,目标识别任务一般被分为两阶和一阶目标检测,其中两阶段目标识别算法以R-CNN,以及改进的FastR-CNN[14]和FasterR-CNN[15]比较常见,而一阶目标识别算法最具有代表性的是 YOLO。

2.2.1目标检测

在医学中的应用有Urban等人通过CNN成对结肠镜检查中息肉的识别标注,其准确率达到96.4%,并且处理速度达到98fps,完全胜任结肠镜检查的实时视频流处理。

深度学习用于乳腺癌组织学图像中的有丝分裂检测:(开源地址:https://github.com/HiYellowC/AggNet

在进行目标检测过程中,通常对于多尺度特征的利用效果很低,

论文:AugFPN: Improving Multi-scale Feature Learning for Object Detection解决此类问题。(论文开源地址https://github.com/Gus-Guo/AugFPN.)

2.2.2 3D目标检测

现有的基于点云的 3D 对象检测方法的性能在很大程度上依赖于大规模的高质量 3D 注释。然而,收集这样的注释通常是乏味且昂贵的。半监督学习是缓解数据注释问题的一个很好的替代方案,但在 3D 对象检测中仍未得到充分探索。

论文:MLCVNet: Multi-Level Context VoteNet for 3D Object Detection(论文开源代码地址:https://github.com/NUAAXQ/MLCVNet

尽管 LiDAR 传感器可以提供准确的环境 3D 点云估计,但它们对于许多设置也过于昂贵。最近,伪激光雷达 (PL) 的引入大大缩小了基于激光雷达传感器的方法与基于廉价立体相机的方法之间的精度差距。

论文:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection(论文开源地址:https://github.com/mileyan/pseudo-LiDAR_e2e

2.2.3 目标跟踪

通过将视觉跟踪任务分解为两个子问题,即像素类别的分类和该像素对象边界框的回归,我们提出了一种新颖的全卷积连体网络,以每像素的方式解决端到端的视觉跟踪问题。

论文:SiamCAR: Siamese Fully Convolutional Classification and Regression for Visual Tracking (论文开源地址:https//github.com/ohhhyeashhh/SiamCAR

为了解决监督学习设立标签工作量大的问题,在没有任何监督注释的情况下都视频进行训练的密集跟踪模型,

论文:MAST: A Memory-Augmented Self-supervised Tracker(论文开源地址: https://github.com/zlai0/MAST

2.2.4 3D点云匹配

解决3D 点云的固有密度变化的问题

论文:D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features(论文开源地址:https://github.com/XuyangBai/D3Feat

迭代最近点(ICP)通过两个步骤迭代地解决刚性点云配准问题:(1)对空间最近点对应进行硬分配,然后(2)找到最小二乘刚性变换。基于空间距离的最近点对应的硬分配对初始刚性变换和噪声/异常点很敏感,这通常会导致 ICP 收敛到错误的局部最小值。

论文:RPM-Net: Robust Point Matching using Learned Features(论文开源地址:https://github.com/yewzijian/RPMNet

2.3 分割问题:

2.3.1 语义分割

图像分割任务相比目标识别更为精细,需要识别出对应目标并将其边界精确的描绘出来,该任务的输出一般是像素级别的分割描述,医学影像的语义分割容易受到周围组织的干扰,分割任务的难度大。

(开源地址:https://github.com/kevinlu1211/pytorch-suggestive-annotation-a-deep-active-learning-framework-for-biomedical-image-segmentation

在使用弱监督的方式及进行训练时,只能针对图像级的标签进行训练,但是在一定程度上增加了模型的复杂性和复杂的多阶段训练程序的代价。

论文提出了一种弱监督的方法实现语义分割

论文:Super-BPD: Super Boundary-to-Pixel Direction for Fast Image Segmentation (论文开源地址:https://github.com/visinf/1-stage-wseg

2.3.2 超像素分割

在计算机视觉中,超像素已被广泛用作减少后续处理图像基元数量的有效方法。但是只有少数尝试将它们整合到深度神经网络中。一个主要原因是标准卷积操作是在规则网格上定义的,并且在应用于超像素时变得低效。

论文:Superpixel Segmentation with Fully Convolutional Networks(论文开源地址:https://github.com/fuy34/superpixel_fcn

2.3.3 全景分割

全景分割旨在同时执行前景实例的实例分割和背景内容的语义分割。典型的自上而下的流程集中在两个关键问题上:1)如何有效地建模语义分割和实例分割之间的内在交互,2)如何正确处理全景分割的遮挡。

论文:BANet: Bidirectional Aggregation Network with Occlusion Handling for Panoptic Segmentation(论文开源地址:https://github.com/Mooonside/BANet

2.4 导航:

2.4.1 视觉语言导航

将视觉和语音结合实现多模态融合的导航技术,

论文:Towards Learning a Generic Agent for Vision-and-Language Navigation via Pre-training(论文开源地址:https://github.com/weituo12321/PREVALENT

2.4.2 轨迹预测

研究了预测人们在不同视觉场景中移动时在多个可能的未来路径上的分布的问题。

论文:The Garden of Forking Paths: Towards Multi-Future Trajectory Prediction,(论文开源地址:https://github.com/JunweiLiang/Multiverse

2.4.3 运动预测

运动预测的存在的一个研究问题是对交通参与者之间的交互进行建模,这些参与者可以相互合作以避免碰撞或形成群体。

论文:Collaborative Motion Prediction via Neural Motion Message Passing(论文开源地址:https://github.com/PhyllisH/NMMP

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值