深度学习复盘与论文复现D

QuantumYou

于 2024-07-14 21:17:10 发布

阅读量1.4k

点赞数 32

分类专栏：机器学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/QuantumYou/article/details/140364330

版权

机器学习专栏收录该内容

20 篇文章 1 订阅

订阅专栏

文章目录

一、新环境搭建与适应
二、Dataset 数据读取问题
三、林学长的小项目运行

在这里插入图片描述

一、新环境搭建与适应

1、easy_install和pip的安装使用

在这里插入图片描述
mac zsh: command not found: pip解决方法

1️⃣首先运行如下指令

curl https://bootstrap.pypa.io/pip/get-pip.py -o get-pip.py

在这里插入图片描述

/Users/zhihongli/Library/Python/3.9/bin

2️⃣根据警告信息替换如下（实际是修改环境变量目录过程）

echo 'exportPATH=/Users/zhihongli/Library/Python/3.9/bin:$PATH' >>~/.bashrc

在这里插入图片描述
3️⃣最后执行以下命令进行保存

source ~/.bashrc

在这里插入图片描述

2、关于安装包超时的解决方案

在这里插入图片描述

pip --default-timeout=100 install -U 包名

在这里插入图片描述

简单粗暴，直接安装Numpy、Pandas，亲测高效（终极方法）

在这里插入图片描述

3、brew安装包安装

1️⃣执行如下关键命令

/bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"

在这里插入图片描述

https://github.com/Homebrew/brew/releases/tag/4.1.4

在这里插入图片描述

https://mirrors.tuna.tsinghua.edu.cn/help/homebrew/

在这里插入图片描述

2️⃣终于安装成功

在这里插入图片描述

4、使用新环境运行以前项目

在这里插入图片描述

5、解决win的pycharm修改内存后无法启动

在pycharm中改了最大堆大小以后打不开。当初修改的是破解工具的.vmoptions文件，用破解工具把它重新覆盖到合适的地方。

①在此电脑右键属性–> 打开控制面板
②选择高级系统设置中的环境变量

在这里插入图片描述

二、Dataset 数据读取问题

1、Lightning Torch 读取数据

参考官方链接🔗如下

在这里插入图片描述

https://pytorch.org/docs/stable/data.html

在这里插入图片描述

https://lightning.ai/docs/pytorch/stable/data/datamodule.html

在这里插入图片描述

https://pytorch.ac.cn/tutorials/beginner/basics/data_tutorial.html

在这里插入图片描述

2、Pytorch的DataLoader数据读取机制

在这里插入图片描述

数据模块中，DataLoader和DataSet就是数据读取子模块中的核心机制。数据读取主要包含以下 3 个方面：

读取哪些数据：每个 Iteration 读取一个 Batchsize 大小的数据，每个 Iteration 应该读取哪些数据。
从哪里读取数据：如何找到硬盘中的数据，应该在哪里设置文件路径参数
如何读取数据：不同的文件需要使用不同的读取方法和库

在这里插入图片描述

DataLoader的用于构建数据装载器，根据batch_size的大小，将数据样本分成若干batch去训练模型，而数据分配的过程需要读取数据，这个过程就是借助Dataset的getitem方法实现的。
也就是说要使用Pytorch读取数据，首先应该新建一个类MyDataset，这个类要继承Dataset类并且实现里面的getitem__方法，该方法用于定义如何接收一个索引idx，返回一个样本对应的data和label。此外还需要实现__len，该方法用于计算样本数据，__len__返回总的样本的个数。

一. torch.utils.data.Dataset

是一个抽象类, 自定义的Dataset需要继承它并且实现两个成员方法:

 def __getitem__(self, index):
        img_path, label = self.data[index].img_path, self.data[index].label
        img = Image.open(img_path)

        return img, label

def __len__(self):
        return len(self.data)

由于DataLoader是一个可迭代对象，当构建完成后可以简要查看读取的数据，以验证数据格式。

在这里插入图片描述

功能：构建可迭代的数据装载器。训练的过程中，每一次iteration从DataLoader中获取一个batch_size大小的数据。

在这里插入图片描述

Epoch、Iteration、Batchsize之间的关系:

1:所有的样本数据都输入到模型中，称为一个epoch

2:一个Batch的样本输入到模型中，称为一个Iteration

3:一个批次的大小，一个Epoch=Batchsize*Iteration

3、Pytorch的Dataset数据读取机制

在这里插入图片描述
功能：用来定义数据从哪里读取以及如何读取。Dataset抽象类，所有自定义的Dataset需要继承它，并且复写

在这里插入图片描述

4、Torch数据读取补充

再推荐阅读这些文章

pytorch使用DataLoader对数据集进行批处理简单示例

https://www.cnblogs.com/JeasonIsCoding/p/10168753.html

dataloader使用教程

https://www.jianshu.com/p/8ea7fba72673

pytorch数据读取

https://zhuanlan.zhihu.com/p/30934236

三、林学长的小项目运行

项目接手时间：24.7.13

1、module ‘numpy.typing’ has no attribute ‘NDArray’

估计是numpy 的版本问题
还有就是numpy和pandas版本不对应

在这里插入图片描述

pip install numpy==1.21 -i https://pypi.tuna.tsinghua.edu.cn/simple

2、关于torch 和cuda 不匹配问题

在这里插入图片描述

pip install torch==2.3.1

在这里插入图片描述

import torch
print(torch.__version__)
print(torch.cuda.is_available())

再者查看cuda是否可以用
在这里插入图片描述

可用安装镜像解决下载慢问题
在这里插入图片描述

3、ValueError: too many values to unpack

在这里插入图片描述

 for idx, (X, Y) in tqdm(enumerate(dataloader)):

修改为

 for idx, sample in tqdm(enumerate(dataloader)):
            X, Y = sample['X'].cuda, sample['Y'].cuda()

在这里插入图片描述

pip  install  tqdm==4.62.3

4、彩蛋计算机期刊指标汇总

跳转链接🔗

在这里插入图片描述

https://docs.qq.com/sheet/DR3VCaHFYUXVjTFJN?tab=BB08J2

QuantumYou

关注

32
点赞
踩
29

收藏

觉得还不错? 一键收藏
3
评论
深度学习复盘与论文复现D

此外还需要实现__len，该方法用于计算样本数据，__len__返回总的样本的个数。一.
复制链接

扫一扫

专栏目录

深度学习复盘与论文复现D

文章目录

一、新环境搭建与适应

1、easy_install和pip的安装使用

2、关于安装包超时的解决方案

3、brew安装包安装

4、使用新环境运行以前项目

5、解决win的pycharm修改内存后无法启动

二、Dataset 数据读取问题

1、Lightning Torch 读取数据

2、Pytorch的DataLoader数据读取机制

3、Pytorch的Dataset数据读取机制

4、Torch数据读取补充

三、林学长的小项目运行

1、module ‘numpy.typing’ has no attribute ‘NDArray’

2、关于torch 和cuda 不匹配问题

3、ValueError: too many values to unpack

4、彩蛋 计算机期刊指标汇总

4、彩蛋计算机期刊指标汇总