FASTAI-fastai 学习笔记——lesson1

最新推荐文章于 2022-04-25 21:00:00 发布

楚大叔

最新推荐文章于 2022-04-25 21:00:00 发布

阅读量1.6k

点赞数 1

分类专栏：学习笔记文章标签：人工智能 fastai

本文链接：https://blog.csdn.net/weixin_38538305/article/details/98512653

版权

学习笔记专栏收录该内容

7 篇文章 1 订阅

订阅专栏

fastai 学习笔记——lesson1

0-重要的参考网站

课程一详细笔记（https://github.com/hiromis/notes/blob/master/Lesson1.md）

课程一视频（https://www.bilibili.com/video/av41718196/?p=1）

课程一源码（https://github.com/fastai/course-v3/blob/master/nbs/dl1/lesson1-pets.ipynb）

注：fastai的安装不再赘述，网上已经介绍的非常详细

课程一中用到的数据集和模型我上传了，方便大家使用。

https://download.csdn.net/download/weixin_38538305/11474915

1-详细内容

a、导入需要的包

from fastai import *
from fastai.vision import *
from fastai.datasets import *

b、下载数据集

path = untar_data(URLs.MNIST_SAMPLE)
#PosixPath('/home/stark/.fastai/data/mnist_sample')
path = untar_data(URLs.PETS)
#PosixPath('/home/stark/.fastai/data/oxford-iiit-pet')

#由于网速问题，可以用其他方法下载，只要将下载后的数据集放到对应的位置即可
#注：.fastai为隐藏文件夹 查看方法为 ctrl+H

'''
$ mkdir -p /home/stark/.fastai/data
$ cd /home/stark/.fastai/data
$ wget -c https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz
$ tar -zxvf oxford-iiit-pet.tgz
'''

c、导入数据

1）fastai导入的函数包含在ImageDataBunch包中，并且导入数据的方式十分丰富

# 1- 从指定路径中导入数据集，并且使用正则表达式取得标签(路径中包含标签)
data = ImageDataBunch.from_name_re(path:PathOrStr, fnames:FilePathList, pat:str, valid_pct:float=0.2, **kwargs)
# 2- 从指定路径中导入数据集，labels为一个回调函数
data = ImageDataBunch.from_name_func(path:PathOrStr, fnames:FilePathList, 
                 label_func:Callable, valid_pct:float=0.2, seed:int=None, **kwargs)
# 3- 从指定路径读取数据集，labels为一个list
ImageDataBunch.from_list(path:PathOrStr, fnames:FilePathList, labels:StrList, 
              valid_pct:float=0.2, seed:int=None, item_cls:Callable=None, **kwargs)
# 4- 以csv中的数据地址读取数据
data = ImageDataBunch.from_csv(path, ds_tfms = tfms, size = 28)
# 5- 以文件夹的名字作为标签名
data = ImageDataBunch.from_folder(path, ds_tfms = tfms, size = 26)  #以文件夹为label名

2）详细例子如下

读取放置结构如下的数据

2.1）from_name_re方法

# 1- from_name_re
path = '/home/stark/.fastai/data/oxford-iiit-pet/'
path_anno = '/home/stark/.fastai/data/oxford-iiit-pet/annotations'
path_img = '/home/stark/.fastai/data/oxford-iiit-pet/images'
fnames = get_image_files(path_img)    #获取path_img路径下的所有图片路径
print(fnames[:5])

pat = r'/([^/]+)_\d+.jpg$'         #正则化表达式
data = ImageDataBunch.from_name_re(path_img, fnames, pat, ds_tfms=get_transforms(), size=224)                    #读取数据集
data.normalize(imagenet_stats)  #标准化数据

print(data.classes)
print(len(data.classes))
print(data.c)

输出结果为

可以看出这种方法适合所有训练数据都在train一个文件夹中并且标签信息在文件的名字中。

2.2）from_name_func

以读取MNIST_SAMPLE数据集为例

stark@Mark2:~/.fastai/data/mnist_sample$ tree -L 2
.
├── labels.csv
├── train
│   ├── 3
│   └── 7
└── valid
    ├── 3
    └── 7

path = untar_data(URLs.MNIST_SAMPLE); #/home/stark/.fastai/data/mnist_sample
fn_paths = [path/name for name in df['name']]; #/home/stark/.fastai/data/mnist_sample/train/3/7463.png

tfms = get_transforms(do_flip = False)  #transforms函数跟读取数据无关，是对数据的预处理

data = ImageDataBunch.from_name_func(path, fn_paths, ds_tfms = tfms, size = 24,
                                     label_func= lambda x:'3' if '/3/' in str(x) else '7')
data.classes
#输出为：
#['3', '7']

#label_func也可以定义为一个回调函数

2.3）from_list

创建一个list作为labels

path = untar_data(URLs.MNIST_SAMPLE); #/home/stark/.fastai/data/mnist_sample
fn_paths = [path/name for name in df['name']]; #/home/stark/.fastai/data/mnist_sample/train/3/7463.png

labels = [('3' if '/3/' in str(x) else '7') for x in fn_paths]
data = ImageDataBunch.from_lists(path,fn_paths,labels=labels,ds_tfms = tfms,size = 24)
print(data.classes)

#输出
['3', '7']

2.4）from_csv

从csv文件中读取所有数据的路径

csv的内容可以用如下代码查看

path = untar_data(URLs.MNIST_SAMPLE); #/home/stark/.fastai/data/mnist_sample
df = pd.read_csv(path/'labels.csv')
df.head()

结果为

#这种调用方法时，path路径下一定要有名为 labels.csv的csv文件
data = ImageDataBunch.from_csv(path, ds_tfms = tfms, size = 28)

2.5）from_folder

这是我最喜欢的一种读取方式，直接以文件夹来对数据进行label

path = untar_data(URLs.MNIST_SAMPLE)
#/home/stark/.fastai/data/mnist_sample
data = ImageDataBunch.from_folder(path, ds_tfms = tfms, size = 26)

综上，fastai提供的导入数据的方式是非常丰富的，个人觉得from_folder和from_list是最实用的。

d、查看数据

导入数据后还需要查看数据是否导入正确，查看数据大概有一下几种

#查看某一个数据
img, label = data.valid_ds[-1]
img.show(title=str(label))

#随机查看多个
data.show_batch(rows = 3, figsize = (5,5))

#查看标签
data.classes
#查看类别数
data.c

e、载入模型

# 载入模型 model.resnet34
learn = create_cnn(data, models.resnet34, metrics=error_rate)
# 训练模型
learn.fit_one_cycle(4)

f、保存和载入模型

learn.save('/home/stark/Documents/JupyterNotebookFiles/fastai/stage-1')
learn.load('/home/stark/Documents/JupyterNotebookFiles/fastai/stage-1')

g、模型的性能查看

# Interpretation
interp = ClassificationInterpretation.from_learner(learn)
# 画出loss最大的几张图
interp.plot_top_losses(9, figsize=(15,15))
# 画出混淆矩阵
interp.plot_confusion_matrix(figsize = (12,12),dpi = 60)
# 被分错的类别和次数
interp.most_confused(min_val=2)

h、其他

#默认的训练为迁移学习，若想从新训练一个模型需要解冻权重参数
learn = create_cnn(data, models.resnet18, metrics = accuracy)
learn.unfreeze()
learn.fit_one_cycle(2, max_lr=slice(1e-6,1e-4))