目标检测与YOLO
数据集输出表达:
分类与定位
基本思想:
- 滑窗法
计算太慢,目标大小不同、需要的滑窗尺寸不同。
- 两步法
先确定可能出现目标的位置,再利用CNN进行检测。
- 一步法(YOLO)
利用一个网络实现目标检测和定位的问题。
语义分割
语义分割关注如何将图像分割成属于不同语义类别的区域。值得一提的是,这些语义区域的标注和预测都是像素级的。与目标检测相比,语义分割标注的像素级的边框更加精细。
类似的问题还有图像分割和实例分割。
- 图像分割将图像分割成若干组成区域。这类问题的方法通常利用图像中像素之间的相关性。它在训练时不需要有关图像像素的标签信息,在预测时也无法保证分割出的区域具有我们希望得到的语义。
- 实例分割又叫同时检测并分割。它研究如何识别图像中各个目标实例的像素级区域。与语义分割有所不同。
风格迁移
风格迁移指利用神经网络将某张图片的样式运用在另一张图片上。
方法:
- 初始化合成图像,例如将其初始化成内容图像。该合成图像是样式迁移过程中唯一需要更新的变量,即样式迁移所需迭代的模型参数。
- 选择一个预训练的卷积神经网络来抽取图像的特征,其中的模型参数在训练中无须更新。深度卷积神经网络凭借多个层逐级抽取图像的特征。我们可以选择其中某些层的输出作为内容特征或样式特征。
人脸识别
数据处理基础
- 特征编码
将数据中的各种属性和特征转换成可供机器学习算法或其他统计分析方法处理的数值或向量形式。常用的编码方式有One-Hot编码,Label Encoding等。 - 文本处理
将文本数据转换成机器可以理解的形式,主要包括文本清洗、分词、停用词处理、词向量化等技术。文本处理技术可以使文本数据适合于机器学习算法的输入。常用的文本处理方法有词袋模型、TF-IDF等。