目标检测与YOLO
数据集输出表达:
- 分类
是否有目标?——有/无
有什么目标?——c1/c2/c3 - 定位
定位方式1——对角线顶点坐标1/对角线顶点坐标2
定位方式2——中心点坐标/长/宽
目标检测基本思想:
- 基本的滑动窗口
滑动次数太多,计算太慢
目标大小不同,每一个滑动位置需要用很多框 - 两步法
可以确定那些更有可能出现目标的位置,再有针对性的用CNN进行检测
- 一步法(YOLO)
进一步减少出现目标的位置,而且将目标分类检测和定位问题合在一个网络里
YOLO官方的模型结构图:
语义分割
语义分割关注如何将图像分割成属于不同语义类别的区域。值得一提的是,这些语义区域的标注和预测都是像素级的。与目标检测相比,语义分割标注的像素级的边框更加精细。
计算机视觉领域还有2个与语义分割相似的重要问题,即图像分割和实例分割:
- 图像分割将图像分割成若干组成区域。这类问题的方法通常利用图像中像素之间的相关性。它在训练时不需要有关图像像素的标签信息,在预测时也无法保证分割出的区域具有我们希望得到的语义。
- 实例分割又叫同时检测并分割。它研究如何识别图像中各个目标实例的像素级区域。与语义分割有所不同。
风格迁移
使用卷积神经网络自动将某图像中的样式应用在另一图像之上,即风格迁移。这里我们需要两张输入图像,一张是内容图像,另一张是样式图像,我们将使用神经网络修改内容图像使其在样式上接近样式图像。
方法:
- 首先,我们初始化合成图像,例如将其初始化成内容图像。该合成图像是样式迁移过程中唯一需要更新的变量,即样式迁移所需迭代的模型参数。
- 然后,我们选择一个预训练的卷积神经网络来抽取图像的特征,其中的模型参数在训练中无须更新。深度卷积神经网络凭借多个层逐级抽取图像的特征。我们可以选择其中某些层的输出作为内容特征或样式特征。
人脸识别
数据处理基础
-
特征编码
将数据中的各种属性和特征转换成可供机器学习算法或其他统计分析方法处理的数值或向量形式。常用的编码方式有One-Hot编码,Label Encoding等。
-
文本处理
将文本数据转换成机器可以理解的形式,主要包括文本清洗、分词、停用词处理、词向量化等技术。文本处理技术可以使文本数据适合于机器学习算法的输入。常用的文本处理方法有词袋模型、TF-IDF等。
一篇文章可以被简单地看作一串单词序列,甚至是一串字符序列。 我们将解析文本的常见预处理步骤。 这些步骤通常包括:
- 将文本作为字符串加载到内存中。
- 将字符串切分为词元(如单词和字符)。
- 建立一个字典,将拆分的词元映射到数字索引。
- 将文本转换为数字索引序列,方便模型操作。