FASTAI-fastai 学习笔记——lesson1

fastai 学习笔记——lesson1

0-重要的参考网站

课程一详细笔记(https://github.com/hiromis/notes/blob/master/Lesson1.md

课程一视频(https://www.bilibili.com/video/av41718196/?p=1

课程一源码(https://github.com/fastai/course-v3/blob/master/nbs/dl1/lesson1-pets.ipynb

注:fastai的安装不再赘述,网上已经介绍的非常详细

课程一中用到的数据集和模型我上传了,方便大家使用。

https://download.csdn.net/download/weixin_38538305/11474915

1-详细内容

a、导入需要的包

from fastai import *
from fastai.vision import *
from fastai.datasets import *

b、下载数据集

path = untar_data(URLs.MNIST_SAMPLE)
#PosixPath('/home/stark/.fastai/data/mnist_sample')
path = untar_data(URLs.PETS)
#PosixPath('/home/stark/.fastai/data/oxford-iiit-pet')

#由于网速问题,可以用其他方法下载,只要将下载后的数据集放到对应的位置即可
#注:.fastai为隐藏文件夹 查看方法为 ctrl+H

'''
$ mkdir -p /home/stark/.fastai/data
$ cd /home/stark/.fastai/data
$ wget -c https://s3.amazonaws.com/fast-ai-imageclas/oxford-iiit-pet.tgz
$ tar -zxvf oxford-iiit-pet.tgz
'''

c、导入数据

1)fastai导入的函数包含在ImageDataBunch包中,并且导入数据的方式十分丰富

# 1- 从指定路径中导入数据集,并且使用正则表达式取得标签(路径中包含标签)
data = ImageDataBunch.from_name_re(path:PathOrStr, fnames:FilePathList, pat:str, valid_pct:float=0.2, **kwargs)
# 2- 从指定路径中导入数据集,labels为一个回调函数
data = ImageDataBunch.from_name_func(path:PathOrStr, fnames:FilePathList, 
                 label_func:Callable, valid_pct:float=0.2, seed:int=None, **kwargs)
# 3- 从指定路径读取数据集,labels为一个list
ImageDataBunch.from_list(path:PathOrStr, fnames:FilePathList, labels:StrList, 
              valid_pct:float=0.2, seed:int=None, item_cls:Callable=None, **kwargs)
# 4- 以csv中的数据地址读取数据
data = ImageDataBunch.from_csv(path, ds_tfms = tfms, size = 28)
# 5- 以文件夹的名字作为标签名
data = ImageDataBunch.from_folder(path, ds_tfms = tfms, size = 26)  #以文件夹为label名

2)详细例子如下

读取放置结构如下的数据

2.1)from_name_re方法

# 1- from_name_re
path = '/home/stark/.fastai/data/oxford-iiit-pet/'
path_anno = '/home/stark/.fastai/data/oxford-iiit-pet/annotations'
path_img = '/home/stark/.fastai/data/oxford-iiit-pet/images'
fnames = get_image_files(path_img)    #获取path_img路径下的所有图片路径
print(fnames[:5])

pat = r'/([^/]+)_\d+.jpg$'         #正则化表达式
data = ImageDataBunch.from_name_re(path_img, fnames, pat, ds_tfms=get_transforms(), size=224)                    #读取数据集
data.normalize(imagenet_stats)  #标准化数据

print(data.classes)
print(len(data.classes))
print(data.c)

输出结果为

可以看出这种方法适合所有训练数据都在train一个文件夹中并且标签信息在文件的名字中。

2.2)from_name_func

以读取MNIST_SAMPLE数据集为例

stark@Mark2:~/.fastai/data/mnist_sample$ tree -L 2
.
├── labels.csv
├── train
│   ├── 3
│   └── 7
└── valid
    ├── 3
    └── 7
path = untar_data(URLs.MNIST_SAMPLE); #/home/stark/.fastai/data/mnist_sample
fn_paths = [path/name for name in df['name']]; #/home/stark/.fastai/data/mnist_sample/train/3/7463.png

tfms = get_transforms(do_flip = False)  #transforms函数跟读取数据无关,是对数据的预处理

data = ImageDataBunch.from_name_func(path, fn_paths, ds_tfms = tfms, size = 24,
                                     label_func= lambda x:'3' if '/3/' in str(x) else '7')
data.classes
#输出为:
#['3', '7']

#label_func也可以定义为一个回调函数

2.3)from_list

创建一个list作为labels

path = untar_data(URLs.MNIST_SAMPLE); #/home/stark/.fastai/data/mnist_sample
fn_paths = [path/name for name in df['name']]; #/home/stark/.fastai/data/mnist_sample/train/3/7463.png

labels = [('3' if '/3/' in str(x) else '7') for x in fn_paths]
data = ImageDataBunch.from_lists(path,fn_paths,labels=labels,ds_tfms = tfms,size = 24)
print(data.classes)

#输出
['3', '7']

2.4)from_csv

从csv文件中读取所有数据的路径

csv的内容可以用如下代码查看

path = untar_data(URLs.MNIST_SAMPLE); #/home/stark/.fastai/data/mnist_sample
df = pd.read_csv(path/'labels.csv')
df.head()

结果为

#这种调用方法时,path路径下一定要有名为 labels.csv的csv文件
data = ImageDataBunch.from_csv(path, ds_tfms = tfms, size = 28)

2.5)from_folder

这是我最喜欢的一种读取方式,直接以文件夹来对数据进行label

path = untar_data(URLs.MNIST_SAMPLE)
#/home/stark/.fastai/data/mnist_sample
data = ImageDataBunch.from_folder(path, ds_tfms = tfms, size = 26)  

综上,fastai提供的导入数据的方式是非常丰富的,个人觉得from_folder和from_list是最实用的。

d、查看数据

导入数据后还需要查看数据是否导入正确,查看数据大概有一下几种

#查看某一个数据
img, label = data.valid_ds[-1]
img.show(title=str(label))

#随机查看多个
data.show_batch(rows = 3, figsize = (5,5))

#查看标签
data.classes
#查看类别数
data.c

e、载入模型

# 载入模型 model.resnet34
learn = create_cnn(data, models.resnet34, metrics=error_rate)
# 训练模型
learn.fit_one_cycle(4)

f、保存和载入模型

learn.save('/home/stark/Documents/JupyterNotebookFiles/fastai/stage-1')
learn.load('/home/stark/Documents/JupyterNotebookFiles/fastai/stage-1')

g、模型的性能查看

# Interpretation
interp = ClassificationInterpretation.from_learner(learn)
# 画出loss最大的几张图
interp.plot_top_losses(9, figsize=(15,15))
# 画出混淆矩阵
interp.plot_confusion_matrix(figsize = (12,12),dpi = 60)
# 被分错的类别和次数
interp.most_confused(min_val=2)

 

h、其他

#默认的训练为迁移学习,若想从新训练一个模型需要解冻权重参数
learn = create_cnn(data, models.resnet18, metrics = accuracy)
learn.unfreeze()
learn.fit_one_cycle(2, max_lr=slice(1e-6,1e-4))

2-总结

       尽管只是第一课,但是内容还是很多的。要老命了。

       模型的调用什么的还没讲到,不着急不着急~

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值