深度学习！

最新推荐文章于 2024-05-21 12:24:19 发布

smymman

最新推荐文章于 2024-05-21 12:24:19 发布

阅读量592

点赞数 24

文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/smymman/article/details/136434248

版权

1、计算机视觉

1.1 定义：

计算机视觉是人工智能 (AI) 的一个领域，是指让计算机和系统能够从图像、视频和其他视觉输入中获取有意义的信息，并根据该信息采取行动或提供建议。如果说人工智能赋予计算机思考的能力，那么计算机视觉就是赋予发现、观察和理解的能力。

-------【什么是计算机视觉 (Computer Vision)？ | IBM】

1.2 主要应用：

1.目标检测：定位+分类

假设你正在看一本杂志，你的目光就像计算机的“视觉”，而目标检测就像是你要在杂志中找到并圈出所有的猫。具体来说，目标检测包括两个主要任务：

找到猫：这就像是你在浏览杂志时，快速地翻页，试图找到所有出现猫的页面。在计算机视觉中，这个步骤叫做物体识别，即确定图像中有什么东西。

圈出猫：当你找到了一个猫的图片，你不仅知道那是一只猫，还会用笔在杂志上圈出猫的位置。在计算机视觉中，这个步骤叫做定位，即精确地确定物体在图像中的位置。

2.图像分类：就像是给一堆东西做分类，根据它们的特征把它们分成不同的组。这有助于我们更好地理解和组织数据。

3.实例分割：实例分割就是让计算机能够不仅识别出图片中的物体，还能区分同一个物体的不同个体，并且精确到像素级别。

这就像是在一张照片中，有多个人站在一起，实例分割的任务就是要辨别出每一个人的轮廓，并且给每个人打上不同的标记，比如用不同的颜色框出来。这样，我们不仅能知道照片中有哪些人，还能知道每个人的具体位置和形状。

4.姿态评估：姿态评估在计算机视觉中是一个高级且具有挑战性的任务，它涉及到识别和定位图像中的人物，并估计其身体各部位的位置和角度。

识别人物：检测图像中的人物。
定位关键点：识别并定位身体的关键部位，如头部、肩膀、手腕、膝盖等。
估计姿态：基于关键点的位置，估计身体的整个姿态。
评估姿势：根据估计的姿态，判断动作是否准确、自然等。

5.图像重建：图像重建在计算机视觉中是一个高级任务，它涉及到从一堆杂乱的数据中恢复出原始的图像。

让我们用一个更通俗的比喻来解释这个任务：

想象一下，你有一本精美的插画书，但你不小心把它撕成了许多小碎片。这些小碎片就像图像中的像素，而你的任务就是把这些碎片重新拼凑起来，还原出原来的插画。

在这个过程中，你可能需要根据碎片的颜色、形状和纹理等特征来判断它们原本的位置。这就像在计算机视觉中，根据像素值、颜色、纹理等特征来推断图像的内容。

6.图像标题生成：图像标题生成是计算机视觉和自然语言处理的交叉领域，它的目标是为一张图片自动生成描述其内容的语句。

7.图像超分辨率：计算机会通过分析图像中的像素信息，推测出更高分辨率下的像素值。这就像根据模糊的照片来猜测原始的清晰照片是什么样子。

8.图像风格转换：图像风格转换就是把一张图片的风格转换为另一张图片的风格

计算机会分析两张图片的内容和风格，然后根据这些信息来生成一张新的图片，这张图片既有原始图片的内容，又有目标图片的风格。这就像把两张照片合在一起，创造出一种新的视觉效果。

9.物体测量

10.分拣：计算机视觉分拣就是使用计算机视觉技术来识别、分类和分拣物品

比如说你需要识别篮子里的每种水果，在计算机视觉中，它需要使用图像识别技术来识别图片中的物体。然后，你需要把这些水果分拣到不同的盘子里，这就像在计算机视觉中，使用图像分割技术来定位和分割图片中的物体。

11、视觉定位：确定图像中物体的精确位置。

让我们用一个更通俗的比喻来解释这个任务：

想象一下，你在一个大型停车场里，你需要找到自己的车。你可能会记住你的车停在哪个区域、哪排车位，甚至记住了周围有哪些显著的标记物，比如特殊的地标或建筑物。这就像在计算机视觉中，根据图像中的物体特征和环境信息来确定物体的位置。

在这个过程中，你可能需要使用各种线索和信息来帮助你找到车，比如你可能会记得你的车是红色的，或者有特别的车贴等。这就像在计算机视觉中，使用各种算法和模型来识别和定位图像中的物体。

2、自然语言处理

2. 1、自然语言处理包含机器理解、解释和生成人类语言的方法，因此，也将它描述为自然语言理解（Natural Language Understanding，NLU）和自然语言生成（Natural Language Generation，NLG）。

2.2、主要任务包括：

语言建模：计算一个句子在一个语言中出现的概率。

中文分词：将中文句子恰当地切分为单个的词。

句法分析：通过明确句子内两个或多个词的关系来了解整个句子的结构。最终句法分析的结果是一棵句法树。

情感分析：给出一个句子，判断这个句子表达的情感。

机器翻译：最常见的是把源语言的一个句子翻译成目标语言的一个句子，最终预测出来的整个目标语言句子必须与给定的源语言句子具有完全相同的含义。

阅读理解：有许多形式。有时候是输入一个段落，一个问题，生成一个回答，或者在原文中标定一个范围作为回答，有时候是输出一个分类。

语言生成：通过模型和算法，使计算机能够生成符合语法和语义规则的人类语言。

信息检索：通过分析和索引大量的文本数据，使计算机能够快速准确地检索相关信息。

语言理解：通过分析文本和语音，使计算机能够理解人类语言的意义和目的。

3、现代化深度学习：

3.1定义与特点 卷积神经网络是一种对人脑比较精准的模拟。CNN是一类具有卷积计算功能的深度前馈神经网络，它通过多层的卷积层、池化层和全连接层来逐层提取图像的特征。这种网络结构具有局部感受野、权值共享和池化等特点，这些特点使得CNN在处理大尺寸图像时既高效又有效。

3.2卷积就是两个函数之间的相互关系。在计算机视觉里面，可以把卷积当作一个抽象的过程，就是把小区域内的信息统计抽象出来。

3.3池化操作。池化操作在统计上的概念更明确，就是一个对一个小区域内求平均值或者求最大值的统计操作。

3.4传统方法与神经网络方法的比较

传统方法适用于特征工程比较成熟、数据较少或易解释性要求高的场景；

神经网络方法适用于数据较大、特征难以手动设计或对模型性能要求较高的场景。

4、强化学习

4.1 监督学习是通过带有标签或对应结果的样本训练得到一个最优模型，再利用这个模型将所有输入映射为相应输出，以实现分类。

4.2非监督学习是在样本的标签未知的情况下，根据样本之间的相似性对样本集进行聚类，使类内差距最小化，学习出分类器.

4.3强化学习是机器学习的一个重要分支，它与非监督学习、监督学习并列为机器学习的三类主要学习方法。强化学习强调如何基于环境行动，以取得最大化的预期利益，所以强化学习可以被理解为决策问题。

4.4强化学习的四个因素

4.5强化学习（Reinforcement Learning，简称RL）是机器学习的一个领域，它关注如何让智能体在环境中采取行动以最大化某种累积奖励。强化学习强调智能体与环境的交互与决策，具有广泛的应用价值。

smymman

关注

24
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
深度学习！

卷积神经网络是一种对人脑比较精准的模拟。CNN是一类具有卷积计算功能的深度前馈神经网络，它通过多层的卷积层、池化层和全连接层来逐层提取图像的特征。这种网络结构具有局部感受野、权值共享和池化等特点，这些特点使得CNN在处理大尺寸图像时既高效又有效。3.2卷积就是两个函数之间的相互关系。在计算机视觉里面，可以把卷积当作一个抽象的过程，就是把小区域内的信息统计抽象出来。
复制链接

扫一扫