飞桨AI创造营2期-t3-数据处理

飞桨AI创造营2期-数据处理

(Datawhale34期组队学习)

1知识点

  • AI Studio Notebook命令
  • Numpy
    • 创建
    • 数据属性
    • 切片索引
    • 生成随机数组
    • 通用函数
    • Tensor
  • Opencv
    • 图像基础操作
    • 图像增强方式
  • 数据集读取与预处理
    • 官方数据集读取与预处理
    • 自定义数据集读取与预处理

2具体内容

2.1AI Studio Notebook命令

大数据框架在总体上分为存储引擎和计算分析引擎
AI Studio Notebook命令

  1. shell :在Shell命令前添加! (感叹号)
  2. Python代码:创建一个kernel,每个cell是天然断点,顺序可颠倒。前端通过建立Session控制kernel
  3. Magic:% 或 %%,分别代表行 Magic 命令和单元格 Magic 命令
    • %lsmagic查看所有
    • %%timeit运行时长
    • %matplotlib inline
    • %config InlineBackend.figure_format = ‘retina’
    • %env 设置环境变量
    • %run 运行python代码
    • %%writefile magic可以把cell的内容保存到外部文件里
    • %pycat则可把外部文件展示在Cell中

2.2Numpy基础

  • 数值计算扩展库
    • 存储和处理大型矩阵(矩阵matrix) ,支持大量维度数组和矩阵运算,针对数组运算提供数学函数库
  • nupmy官网链接
  1. 创建
numpy.array(object,dtype=None,copy=True,order='K',subok=False,ndmin=0)
- object:接收 array_like。表示想要创建的数组。无默认。
- dtype:接收 data-type。表示数组所需的数据类型。如果未给定,则选择保存对象所需的最小类型。默认为 None。
- ndmin:接收 int。指定生成数组应该具有的最小维数。默认为 None。
  1. 数组属性

    • dtype,返回 data-type,描述数组中元素的类型
    • itemsize,返回 int,表示数组的每个元素的大小(以字节为单位)
    • ndim,返回 int,表示数组的维度
    • shape,返回 tuple,表示数组的尺寸,对于 n 行 m 列的矩阵,形状为(n,m)
    • size,返回 int,表示数组的元素总数,等于数组形状的乘积
  2. 切片索引

  3. 生成随机数组

    • np.random.rand(2,3):小数数组,返回一个或一组服从“0~1”均匀分布的随机样本值。随机样本取值范围是[0,1),不包括1
    • np.random.randint(1,100, 10):返回 [1,100)内10个随机整数
    • np.random.choice(b, 5):从b中随机抽5个数据
    • np.random.randint(1,100, (2,3)) :返回 [1,100)内2x3数组
    • np.random.shuffle(random_d):随机排列,打乱顺序
  4. 通用函数

     b.max(), b.min(), b.ptp(), b.sum(), b.mean()
     b.var(), b.std() , np.median(b) # 方差、标准差、中位数
     b.argmax(), b.argmin() # 最大值、最小值所对应的索引下标
     np.prod(c) # 累乘 120
     np.cumprod(c) # 累乘并给出中间结果 array([1,2,6,24,120])
     np.cumsum(c) # 累加并给出中间结果
     np.unique(b) # 返回不重复的元素值 array([1, 3, 5, 7, 8])
     np.all(b) # b所有元素都为非0值则返回True
     np.any(b) # b有任意元素为非0值则返回True
     np.zeros((3,4)),np.ones((3,4)) # 创建元素全0、1的数组
    
    
     np.dot(a,b) # 矩阵乘法运算的dot()函数
     np.bmat() # 矩阵拼接
     b.T() # 矩阵转置
     b.I() # 矩阵的逆
    
    
     缺失值: nan表示缺失值,如数组中含有nan ,则函数运算结果为nan。
     np.isnan(b) # isnan()测试是否nan值
    
  5. Tensor

  • Tensor实际上就是一个多维数组(multidimensional array),而Tensor的目的是能够创造更高维度的矩阵、向量。
  • paddle的Tensor文档

2.3Opencv

  1. OpenCV是一个基于Apache2.0许可(开源)发行的跨平台计算机视觉和机器学习软件库,可以运行在Linux、Windows、Android和Mac OS操作系统上。它轻量级而且高效——由一系列 C 函数和少量 C++ 类构成,同时提供了Python、Ruby、MATLAB等语言的接口,实现了图像处理和计算机视觉方面的很多通用算法。

  2. 官网链接

  3. 图像基础

  4. 图像增强方式

2.4数据集读取与预处理

  1. paddle官方数据
# 图像转tensor操作,也可以加一些数据增强的方式,例如旋转、模糊等等
# 数据增强的方式要加在Compose([  ])中
def get_transforms(mode='train'):
    if mode == 'train':
        data_transforms = transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize(mean=[0.4914, 0.4822, 0.4465], std=[0.2023, 0.1994, 0.2010])])
    else:
        data_transforms = transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize(mean=[0.4914, 0.4822, 0.4465], std=[0.2023, 0.1994, 0.2010])])
    return data_transforms

# 获取官方MNIST数据集
def get_dataset(name='MNIST', mode='train'):
    if name == 'MNIST':
        dataset = datasets.MNIST(mode=mode, transform=get_transforms(mode))

    return dataset

# 定义数据加载到模型形式
def get_dataloader(dataset, batch_size=128, mode='train'):
    dataloader = DataLoader(dataset, batch_size=batch_size, num_workers=2, shuffle=(mode == 'train'))
    return dataloader

#运行
batch_size = 2
train_dataset = get_dataset(mode='train')
train_dataloader = get_dataloader(train_dataset, batch_size, mode='train')
# val_dataset = get_dataset(mode='test')
# val_dataloader = get_dataloader(val_dataset, batch_size, mode='test')

#查看加载到模型的train数据
for data in enumerate(train_dataloader):
    image = data[0]
    label = data[1]
    print(image)
    print(label)
    break  # 执行一个batch_size大小看看结果
  1. 自定义数据集读取与预处理
  • 一是建立样本数据读取路径与样本标签之间的关系
  • 二是构造读取器与数据预处理。可以写个自定义数据读取器,它继承于PaddlePaddle的dataset类,在__getitem__方法中把自定义的预处理方法加载进去。
#以下代码用于建立样本数据读取路径与样本标签之间的关系
import os
import random

data_list = [] #用个列表保存每个样本的读取路径、标签

#由于属种名称本身是字符串,而输入模型的是数字。需要构造一个字典,把某个数字代表该属种名称。键是属种名称,值是整数。
label_list=[]
with open("/home/aistudio/data/species.txt") as f:
    for line in f:
        a,b = line.strip("\n").split(" ")
        label_list.append([b, int(a)-1])
label_dic = dict(label_list)

#获取Butterfly20目录下的所有子目录名称,保存进一个列表之中
class_list = os.listdir("/home/aistudio/data/Butterfly20")
class_list.remove('.DS_Store') #删掉列表中名为.DS_Store的元素,因为.DS_Store并没有样本。

for each in class_list:
    for f in os.listdir("/home/aistudio/data/Butterfly20/"+each):
        data_list.append(["/home/aistudio/data/Butterfly20/"+each+'/'+f,label_dic[each]])

#按文件顺序读取,可能造成很多属种图片存在序列相关,用random.shuffle方法把样本顺序彻底打乱。
random.shuffle(data_list)

#打印前十个,可以看出data_list列表中的每个元素是[样本读取路径, 样本标签]。
print(data_list[0:10])

#打印样本数量,一共有1866个样本。
print("样本数量是:{}".format(len(data_list)))
#以下代码用于构造读取器与数据预处理
#首先需要导入相关的模块
import paddle
from paddle.vision.transforms import Compose, ColorJitter, Resize,Transpose, Normalize,BrightnessTransform,RandomVerticalFlip,RandomHorizontalFlip,RandomRotation
import cv2
import numpy as np
from PIL import Image
from paddle.io import Dataset

#自定义的数据预处理函数,输入原始图像,输出处理后的图像,可以借用paddle.vision.transforms的数据处理功能
def preprocess(img):
    transform = Compose([
        Resize(size=(224, 224)), #把数据长宽像素调成224*224
        #ColorJitter(0.4, 0.4, 0.4, 0.4),# 随机调整图像的亮度,对比度,饱和度和色调。
        #RandomHorizontalFlip(224),
        #RandomVerticalFlip(224),
        #BrightnessTransform(0.2),
        
        Normalize(mean=[127.5, 127.5, 127.5], std=[127.5, 127.5, 127.5], data_format='HWC'), #标准化
        Transpose(), #原始数据形状维度是HWC格式,经过Transpose,转换为CHW格式
        ])
    img = transform(img).astype("float32")
    return img

#自定义数据读取器
class Reader(Dataset):
    def __init__(self, data, is_val=False):
        super().__init__()
        #在初始化阶段,把数据集划分训练集和测试集。由于在读取前样本已经被打乱顺序,取20%的样本作为测试集,80%的样本作为训练集。
        self.samples = data[-int(len(data)*0.2):] if is_val else data[:-int(len(data)*0.2)]

    def __getitem__(self, idx):
        #处理图像
        img_path = self.samples[idx][0] #得到某样本的路径
        img = Image.open(img_path)
        if img.mode != 'RGB':
            img = img.convert('RGB')
        img = preprocess(img) #数据预处理--这里仅包括简单数据预处理,没有用到数据增强

        #处理标签
        label = self.samples[idx][1] #得到某样本的标签
        label = np.array([label], dtype="int64") #把标签数据类型转成int64
        return img, label

    def __len__(self):
        #返回每个Epoch中图片数量
        return len(self.samples)

#生成训练数据集实例
train_dataset = Reader(data_list, is_val=False)

#生成测试数据集实例
eval_dataset = Reader(data_list, is_val=True)

#打印一个训练样本
#print(train_dataset[1136][0])
print(train_dataset[1136][0].shape)
print(train_dataset[1136][1])
  1. 加载数据集(返回原始数据)
  2. 定义trans_func(),包括tokenize, token to id等操作,传入map()方法,将原始数据转为feature
  3. 根据上步结果定义batchify方法和BatchSampler
  4. 定义DataLoader,传入BatchSampler和batchify_fn()
  • 文本处理
    • 基于预训练模型的数据处理 tokenizer,batchify
    • 基于非预训练模型:Jiebatokenizer,vovab

3参考

https://aistudio.baidu.com/aistudio/projectdetail/3488812

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值