消融实验:对比不同embedding dim时模型准确率
在上次的作业基础上,更换训练数据集,添加测试数据集与代码。
步骤
0. 环境
pip install cmake
pip install dlib
要等很久,尝试了永久安装路径,cmake可以装到永久路径,但是dlib一装内存就溢出,环境就被关闭了。也不知道为什么。
!换了一下环境到GPU,发现好像可以了诶,问题解决。
1. 训练集
训练数据集选择:VGGFACE2 的训练集 或者 VGGFACE2的测试集
- 下载完成vggface2_train.zip解压缩,得到vggface2_train文件夹
- 由于人脸检测,对齐需要预先处理,所以我们运行week6/image_processing.py,对图片进行检测对齐处理
- 这个时间耗时会非常长,注意时间安排。
- 代码功能一:对齐后的图片保存到vggface2_train_notmask文件夹内
- 代码功能二:对齐后的图片加口罩,保存到vggface2_train_mask文件夹内
- 再运行make_csv_file.py,生成csv文件,为生成triplet做准备。
- 运行 train_dataset.py 检查数据集是否正常。
“====================================================================”
训练集30G, 测试集2G。 选择2G的测试集当做数据集。
修改了项目挂载的数据集,选了一个VGG2的数据集挂载,里面包含了train和test的数据,选择test解压。
压缩week6.zip并上传。
备用一个目录,万一后面修改要用到
aistudio@jupyter-565087-1471370:~/work/liv_ob_detection/week6/Datasets/vggface2_train$
在这个目录下,是每一个人的照片的文件夹。
时间消耗大概需要四五个小时。
train是原始数据集,
train_face_notmask是对齐后的不戴口罩的人脸照片,!!是训练用的文件夹路径!!,比如:
train_face_mask是带口罩的数据,比如:
train_mask_notmask下是剩下的人脸的部分的轮廓,比如:
mask_mask下全是txt的文件,暂时还不知道有什么用(因为不是图片不太直观,估计是生成的口罩的一些数据。)
四个多小时之后终于跑完了。
python make_csv.py
python make_csv_file.py
一开始跑错了,后来发现生成的csv名字不对,掉头重跑。(make_csv的路径是不一样的:
# make_csv_file下的路径
# 定义路径
data_path = os.path.join(pwd, f'Datasets{os.sep}vggface2_train_face_notmask')
csv_path = os.path.join(pwd, f'Datasets{os.sep}vggface2_train_face_notmask.csv')
# ================================================================================
# make_csv下的路径
# 定义路径
data_path = './Datasets/vggface2_train'
csv_path = './Datasets/vggface2_train.csv'