python读取特殊格式文件

外卖猿

已于 2023-11-07 00:14:14 修改

阅读量923

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签： python pytorch lmdb

于 2022-04-27 10:47:08 首次发布

本文链接：https://blog.csdn.net/wangwushan/article/details/124445437

深度学习专栏收录该内容

15 篇文章

订阅专栏

本文介绍如何在PyTorch中读取LMDB格式的数据集，该数据集常用于深度学习和数据分析任务。通过定义LMDBDataset类，实现了从LMDB文件加载数据并缓存到内存的功能，以便高效访问。

做深度学习/数据分析，数据读取是基础、必需的一环。特整理，以待后用。

1.pytorch读取lmdb格式文件

内容来源于songlab-cal/tape。

from torch.utils.data import Dataset
from typing import Union, List, Tuple, Sequence, Dict, Any, Optional, Collection
from pathlib import Path
# import torch
import lmdb
import pickle as pkl
import numpy as np

class LMDBDataset(Dataset):
    """Creates a dataset from an lmdb file.
    Args:
        data_file (Union[str, Path]): Path to lmdb file.
        in_memory (bool, optional): Whether to load the full dataset into memory.
            Default: False.
    """

    def __init__(self,
                 data_file: Union[str, Path],
                 in_memory: bool = False):

        data_file = Path(data_file)
        if not data_file.exists():
            raise FileNotFoundError(data_file)

        env = lmdb.open(str(data_file), max_readers=1, readonly=True,
                        lock=False, readahead=False, meminit=False)

        with env.begin(write=False) as txn:
            num_examples = pkl.loads(txn.get(b'num_examples'))

        if in_memory:
            cache = [None] * num_examples
            self._cache = cache

        self._env = env
        self._in_memory = in_memory
        self._num_examples = num_examples

    def __len__(self) -> int:
        return self._num_examples

    def __getitem__(self, index: int):
        if not 0 <= index < self._num_examples:
            raise IndexError(index)

        if self._in_memory and self._cache[index] is not None:
            item = self._cache[index]
        else:
            with self._env.begin(write=False) as txn:
                item = pkl.loads(txn.get(str(index).encode()))
                if 'id' not in item:
                    item['id'] = str(index)
                if self._in_memory:
                    self._cache[index] = item
        return item

执行下列语句：

lmdb_data = LMDBDataset("../data/fluorescence/fluorescence_train.lmdb")
lmdb_data[0]

在这里插入图片描述

参考文献

[1] songlab-cal/tape