对于单纯的分类问题,比较容易理解,给定一副图画,我们输出一个标签的类别。而对于定位问题,需要输出四个数字(x,y,w,h),图像的某一点坐标(x,y),以及图像的宽度和高度,有了这四个数字,我们很容易找到物体的边框。
The Oxford-IIIT Pet Dataset是一个宠物图像数据集,包含37种宠物,每种宠物200张左右宠物图片,并同时包含宠物轮廓标注信息。考虑到实验的简洁性,我们将类别分为了两大类“dog”和"cat",其中图片信息是以大写开头为“cat”,小写开头为“dog”。
1. 导入相关包
import tensorflow as tf
import matplotlib.pyplot as plt
%matplotlib inline
from lxml import etree
import numpy as np
import glob
import matplotlib.patches as Rectangle
print(tf.__version__

该博客介绍了如何使用TensorFlow2.0处理图像定位和分类问题,特别是在Oxford-IIIT宠物数据集上的应用。首先,博主导入相关包并进行数据预处理,包括创建输入管道和划分训练集与测试集。接着,利用Xception预训练模型创建了能够同时输出类别和位置信息的网络模型。最后,博主对模型进行了评估,结果显示整体效果良好。
订阅专栏 解锁全文
2221

被折叠的 条评论
为什么被折叠?



