【科技前沿】2024 年深度学习在各行业的 20 大应用

几年前，我们从未想过深度学习应用会为我们带来自动驾驶汽车和虚拟助手，如 Alexa、Siri 和 Google Assistant。但如今，这些发明已成为我们日常生活的一部分。深度学习以其无限的可能性（如欺诈检测和像素恢复）继续吸引着我们。

让我们进一步了解深度学习在各个行业的应用。

深度学习在各行业的顶级应用

自动驾驶汽车
新闻聚合和欺诈新闻检测
自然语言处理
虚拟助手
娱乐
视觉识别
欺诈检测
卫生保健
个性化
检测儿童发育迟缓
黑白图像的彩色化
为无声电影添加声音
自动机器翻译
自动手写生成
自动游戏
语言翻译
像素修复
照片描述
人口和选举预测
深梦

想象一个没有交通事故或路怒的世界。想象一个所有手术都成功，不会因手术失误而造成人员死亡的世界。想象一个没有儿童处于弱势，甚至那些有精神或身体障碍的人也能享受与其他人类相同的生活质量的世界。如果这些太难理解，想象一个你可以根据自己的参数（事件、特殊日子、地点、面孔或人群）分离旧图像（没有太多元数据的图像）的世界。深度学习应用对于普通人来说可能看起来令人失望，但那些有幸了解机器学习世界的人明白深度学习通过探索和解决每个领域的人类问题在全球范围内产生的影响。

因此，这里是带有解释的深度学习应用程序列表，它肯定会让您惊叹不已。

1.自动驾驶汽车

深度学习是让自动驾驶成为现实的力量。一百万组数据被输入到系统中，以建立模型，训练机器学习，然后在安全的环境中测试结果。匹兹堡的 Uber人工智能实验室不仅致力于让无人驾驶汽车变得简单，还将食品配送选项等多项智能功能与无人驾驶汽车相结合。自动驾驶汽车开发人员最关心的是处理前所未有的情况。深度学习算法的典型定期测试和实施周期是确保安全驾驶，并接触越来越多的数百万种场景。来自摄像头、传感器、地理地图的数据有助于创建简洁而复杂的模型，以在交通中导航、识别路径、标志、行人专用路线以及交通量和道路堵塞等实时元素。据《福布斯》报道，麻省理工学院正在开发一种新系统，该系统将允许自动驾驶汽车在没有地图的情况下导航，因为 3D 地图仍然仅限于世界主要地区，在避免事故方面效果不佳。CSAIL研究生 Teddy Ort 表示：“这种‘无地图’方法之所以以前没有真正实现，是因为通常很难达到与详细地图相同的准确性和可靠性。这种仅使用车载传感器即可导航的系统表明，自动驾驶汽车能够实际处理科技公司已绘制的少数道路以外的道路。”

2. 新闻聚合和欺诈新闻检测

现在有一种方法可以过滤掉新闻提要中的所有坏消息和丑闻。深度学习在新闻聚合中的广泛使用正在加强根据读者定制新闻的努力。虽然这似乎并不新鲜，但定义读者角色的复杂程度正在达到新的水平，以便根据地理、社会、经济参数以及读者的个人偏好过滤新闻。另一方面，欺诈新闻检测是当今世界的重要资产，互联网已成为所有真实和虚假信息的主要来源。由于机器人会自动跨渠道复制假新闻，因此很难区分假新闻。剑桥分析公司是一个典型的例子，说明了假新闻、个人信息和统计数据如何影响读者的看法（印度人民党与印度国民大会党）、选举（阅读唐纳德特朗普数字竞选活动）和利用个人数据（大约 8700 万人的 Facebook 数据被泄露）。深度学习有助于开发分类器，可以检测假新闻或有偏见的新闻并将其从您的提要中删除，并警告您可能的隐私泄露。训练和验证用于新闻检测的深度学习神经网络非常困难，因为数据充斥着各种观点，没有任何一方能够判断新闻是中立的还是有偏见的。

3.自然语言处理（NLP）

理解与语言相关的复杂性，无论是句法、语义、声调细微差别、表达还是讽刺，都是人类最难学习的任务之一。自出生以来的不断训练和接触不同的社会环境有助于人类对每种情况形成适当的反应和个性化的表达形式。通过深度学习进行自然语言处理正试图通过训练机器捕捉语言细微差别并制定适当的反应来实现同样的目标。文件摘要在法律领域得到广泛的使用和测试，这使得律师助理变得过时。回答问题、语言建模、文本分类、推特分析或更广泛层面的情绪分析都是自然语言处理的子集，深度学习在这些领域正在获得发展势头。早期的逻辑回归或 SVM 用于构建耗时的复杂模型，但现在分布式表示、卷积神经网络、循环和递归神经网络、强化学习和记忆增强策略正在帮助 NLP 实现更大的成熟度。分布式表示在产生用于构建短语和句子的线性语义关系以及通过词嵌入捕获局部词语义方面特别有效（词嵌入意味着在相邻词的上下文中定义词的含义）。

4.虚拟助手

深度学习最流行的应用是虚拟助手，从 Alexa 到 Siri 再到 Google Assistant。与这些助手的每次互动都为他们提供了了解您的声音和口音的机会，从而为您提供了二次人机交互体验。虚拟助手使用深度学习来了解更多有关他们的主题的信息，从您的外出就餐偏好到您最常去的景点或您最喜欢的歌曲。他们通过评估自然人类语言来学习理解您的命令并执行它们。虚拟助手还具备另一项功能，即将您的语音翻译成文本、为您做笔记和预约。虚拟助手实际上随时听候您的差遣，因为他们可以做任何事情，从跑腿到自动回复您的特定电话，再到协调您和您的团队成员之间的任务。借助文本生成和文档摘要等深度学习应用程序，虚拟助手还可以帮助您创建或发送适当的电子邮件副本。

5.娱乐（VEVO、Netflix、电影制作、体育精彩集锦等）

2018 年温布尔登网球公开赛使用 IBM Watson 通过数百小时的录像分析球员的情绪和表情，自动生成电视转播的精彩片段。这为他们节省了大量精力和成本。得益于深度学习，他们能够将观众反应和比赛或球员受欢迎程度考虑在内，从而得出更准确的模型（否则它只会显示最有表现力或最具攻击性的球员的精彩片段）。Netflix和亚马逊正在增强其深度学习能力，通过创建考虑节目偏好、访问时间、历史记录等因素的角色来为观众提供个性化体验，以推荐特定观众喜欢的节目。VEVO 一直在使用深度学习来创建下一代数据服务，不仅为其用户和订阅者提供个性化体验，还为艺术家、公司、唱片公司和内部业务组提供个性化体验，以根据表现和受欢迎程度生成见解。深度视频分析可以节省音频/视频同步及其测试、转录和标记所需的数小时手动工作。得益于深度学习及其对面部和模式识别的贡献，内容编辑和自动内容创建现在已成为现实。随着摄像机学会研究人类的肢体语言并将其融入虚拟角色，深度学习人工智能正在彻底改变电影制作过程。

6.视觉识别

想象一下，您正在浏览大量老照片，怀念过去。您决定选出几张装框，但首先，您需要对它们进行整理。在没有元数据的情况下，只有手动操作才能完成此操作。您最多只能根据日期对它们进行排序，但下载的图像有时缺少元数据。随着深度学习的出现，现在可以根据照片中检测到的位置、人脸、人物组合，或根据事件、日期等对图像进行排序。从图库（假设数据集和 Google 图片库一样大）中搜索特定照片需要最先进的视觉识别系统，该系统由从基础到高级的多个层组成，以识别元素。通过深度神经网络进行大规模图像视觉识别正在通过广泛使用卷积神经网络、Tensorflow和Python来推动数字媒体管理这一领域的发展。

7.欺诈检测

另一个受益于深度学习的领域是银行和金融业，随着货币交易数字化，该行业深受欺诈检测任务的困扰。Keras和 Tensorflow中的自动编码器正在开发中，用于检测信用卡欺诈，为金融机构节省数十亿美元的追偿和保险成本。欺诈预防和检测是基于识别客户交易和信用评分中的模式，识别异常行为和异常值。分类和回归机器学习技术和神经网络用于欺诈检测。虽然机器学习主要用于突出显示需要人工审议的欺诈案件，但深度学习正试图通过扩大工作量来最大限度地减少这些工作量。

8.医疗保健

据NVIDIA称，“从医学成像到基因组分析再到发现新药，整个医疗行业正处于转型状态，而 GPU 计算是核心。GPU 加速的应用程序和系统正在提供新的效率和可能性，使热衷于改善他人生活的医生、临床医生和研究人员能够尽最大努力工作。”帮助早期、准确和快速地诊断危及生命的疾病，增强临床医生以解决优质医生和医疗服务提供者短缺的问题，病理结果和治疗过程标准化，以及了解遗传学以预测未来患病风险和不良健康事件是医疗领域正在加速发展的一些深度学习项目。再入院是医疗保健行业的一个巨大的问题，因为它的成本高达数千万美元。但通过使用深度学习和神经网络，医疗巨头正在降低与再入院相关的健康风险，同时降低成本。监管机构也在临床研究中大量使用人工智能来寻找无法治愈的疾病的治疗方法，但医生的怀疑态度和缺乏庞大的数据集仍然对深度学习在医学领域的应用构成挑战。

9.个性化

现在，每个平台都在尝试使用聊天机器人为访问者提供人性化的个性化体验。深度学习正在帮助亚马逊、E-Bay、阿里巴巴等电子商务巨头提供无缝个性化体验，包括产品推荐、个性化套餐和折扣，并在节日期间发现巨大的收入机会。即使是在较新的市场中进行侦察，也会通过推出更可能取悦人类心理并促进微型市场增长的产品、服务或计划来完成。在线自助服务解决方案正在兴起，可靠的工作流程甚至使那些曾经只能在互联网上提供的服务也可以在互联网上获得。专门从事特定任务的机器人可以实时个性化您的体验，为您提供最合适的服务，无论是保险计划还是定制汉堡。

10.检测儿童发育迟缓

言语障碍、自闭症和发育障碍会使患有这些问题的儿童无法获得良好的生活质量。早期诊断和治疗可以对残障儿童的身体、心理和情绪健康产生奇妙的影响。因此，深度学习最崇高的应用之一就是在早期发现和纠正与婴儿和儿童相关的这些问题。这是机器学习和深度学习之间的主要区别，机器学习通常仅用于特定任务，而深度学习则帮助解决人类最严重的问题。麻省理工学院计算机科学和人工智能实验室和麻省总医院卫生职业研究所的研究人员开发了一种计算机系统，该系统甚至可以在幼儿园之前识别语言和言语障碍，而幼儿园是大多数此类病例开始出现的时候。研究人员使用一种称为曲线下面积的标准测量来评估系统的性能，该标准测量描述了详尽识别患有特定疾病的人群成员之间的权衡。他们使用残差分析来识别年龄、性别和语音声学特征之间的相关性，以限制假阳性。自闭症通常是通过与低出生体重、体力活动、身体质量指数、学习障碍等辅助因素相结合来检测的。

11.黑白图像的彩色化

图像着色是获取灰度图像（作为输入）然后生成彩色图像（作为输出）的过程，该图像代表输入的语义颜色和色调。考虑到任务的难度，这个过程传统上是手工完成的。然而，随着当今深度学习技术的出现，它现在被应用于照片中的物体及其背景——以便为图像着色，就像人类操作员的方法一样。本质上，这种方法涉及在监督层中使用高质量的卷积神经网络，通过添加颜色来重新创建图像。查看监督机器学习教程课程。

12. 为无声电影添加声音

卷积神经网络和 LSTM 循环神经网络的应用涉及合成声音以匹配无声视频。深度学习模型倾向于将视频帧与预先录制的声音数据库相关联，以选择适合场景的声音。这项任务是使用训练 1000 个视频来完成的 - 这些视频中有鼓槌敲击不同表面并产生不同的声音。然后，深度学习模型使用这些视频来预测视频中最适合的声音。然后，为了预测声音是假的还是真的，建立了类似图灵测试的设置以获得最佳结果。

7.欺诈检测

8.医疗保健

9.个性化

10.检测儿童发育迟缓

11.黑白图像的彩色化

12. 为无声电影添加声音

13.自动机器翻译

卷积神经网络在识别具有可见字母的图像方面很有用。一旦识别，它们就可以转换成文本，使用翻译后的文本进行翻译，并用图像重新创建。这个过程称为即时视觉翻译。此应用程序涉及使用一组给定的单词、短语或句子将一种语言自动翻译成另一种语言。虽然自动机器翻译已经存在很长时间了，但深度学习在两个特定领域取得了最佳成果：

文本的自动翻译。
图像自动翻译

文本翻译通常在不对序列进行任何预处理的情况下进行。这使得算法能够学习单词之间的依赖关系，将其映射到新语言中。这些任务通常由大型 LSTM 循环神经网络的堆叠网络执行。

14. 自动手写生成

深度学习的这一应用涉及为给定的单词或短语语料库生成一组新的笔迹。笔迹本质上是笔在创建样本时使用的坐标序列。学习笔移动和字母之间的关系并生成新的示例。

15. 自动游戏

在这里，学习一个文本语料库，并逐字或逐字符生成新文本。这种深度学习模型能够学习如何拼写、标点，甚至捕捉语料库句子中的文本风格。通常，大型循环神经网络用于通过输入字符串序列中的项目来学习文本生成。然而，最近 LSTM 循环神经网络也通过使用基于字符的模型（每次生成一个字符）在这一问题上取得了巨大成功。根据 Andrej Karpathy 的说法，以下是一些应用示例：

保罗·格雷厄姆论文
莎士比亚
维基百科文章（包括标记）
代数几何（带 LaTeX 标记）
Linux 源代码
宝宝名字

16. 图片 – 语言翻译

深度学习的一个迷人应用包括图像-语言翻译。使用 Google 翻译应用，现在可以将带有文本的摄影图像自动翻译成您选择的实时语言。您需要做的就是将相机放在物体上方，您的手机会运行深度学习网络来读取图像，对其进行 OCR（即将其转换为文本），然后将其翻译成首选语言的文本。这是一个非常有用的应用程序，因为语言将逐渐不再成为障碍，从而实现普遍的人类交流。

17.像素修复

在深度学习出现之前，将视频放大到超出其实际分辨率的概念是不现实的。2017 年，谷歌大脑的研究人员训练了一个深度学习网络，以拍摄非常低分辨率的面部图像并通过它预测人的面部。这种方法被称为像素递归超分辨率。它显著提高了照片的分辨率，精确定位突出的特征，以便足以进行个性识别。

上图描绘了一组图片，右侧是一组原始的 8×8 照片，左侧是真实脸部图像（即照片中原本的真脸）。最后，中间一列是计算机的猜测。

18. 照片说明

计算机倾向于自动对照片进行分类。例如，Facebook 创建了带标签的照片、移动上传和时间线图片的相册。同样，Google Photos 会自动标记所有上传的照片，以便于搜索。然而，这些仅仅是标签。深度学习进入了另一个层次，向前迈进了几步。它有能力描述照片中现有的每个元素。Andrej Karpathy 和 Li Fei-Fei 完成的一项工作训练了一个深度学习网络来识别图像中数十个有趣的区域，并写出一个句子来描述每个区域。这意味着计算机不仅学会了如何对照片中的元素进行分类，而且还设法用英语语法来描述它们。

19. 人口和选举预测

Gebru 等人拍摄了 5000 万张 Google 街景图像，以探索深度学习网络能够对它们做些什么。结果一如既往地出色。计算机能够学会定位和识别汽车及其规格。它成功检测到了超过 2200 万辆汽车及其品牌、型号、车身类型和年份。受到这种深度学习能力成功案例的启发，他们的探索并未止步于此。人们发现，该模型能够仅通过汽车构成来预测每个地区的人口统计数据。

例如，如果在 15 分钟的车程内穿过一座城市时遇到的轿车数量高于皮卡车的数量，那么该城市在下届总统选举中很可能会投票给民主党（可能性为 88％）；否则，很可能会投票给共和党（可能性为 82％）！