python踩坑

读二进制数据

以minist手写数据集为例子,这种数据后缀名为.bin或者压根没有,借助struct来读数据。
struct用法(注意参数的使用)
其实参数主要考虑的是对齐的操作,根据二进制文件不同的数据类型进行设置。
如果要读minst的图像二进制文件,上代码:

import numpy as np
import shutil
import struct
with gzip.open(image_filename, 'rb') as f_in:
	with open(image_filename.split('.gz')[0], 'wb') as f_out:
    	shutil.copyfileobj(f_in, f_out)
with open(image_filename.split('.gz')[0], 'rb') as imgpath:
	magic, num, rows, cols = struct.unpack('>IIII',imgpath.read(16))
    images = np.fromfile(imgpath,dtype=np.uint8)
    images = images.reshape(len(labels), 784)

要点如下:
①这边的操作是先解压,再打开二进制文件,打开的时候文件名去掉.gz
②struct.unpack ‘>IIII’:先解压四个int型数据,因为该图像二进制文件前4个数据分别为magic,num,rows,cols,与具体数据无关,可以跳过。
③np.fromfile :将文件内容读取至np中,设置好数据类型与shape

还有另外一种近似解:

bin_data = open(image_filesname, 'rb').read()
offset = 0
fmt_header = '>iiii'
magic, num_images, num_rows, num_cols = struct.unpack_from(fmt_header, bin_data, offset)
    image_size = num_rows * num_cols
    offset += struct.calcsize(fmt_header)
    #calcsize(fmt) -> integer  计算给定的格式(fmt)占用多少字节的内存
fmt_image = '>' + str(image_size) + 'B'#读取一张图片需要的字节数
images = np.empty((num_images, num_rows, num_cols))
for i in range(num_images):
    images[i] = np.array(struct.unpack_from(fmt_image, bin_data, offset)).reshape((num_rows, num_cols))
    offset += struct.calcsize(fmt_image)

这种属于计算每一次放数据的offset,老老实实一个数据一个数据放
①没有解压,直接打开文件
②函数struct.calcsize通过format计算偏移
③函数struct.unpack_from(fmt_header, bin_data, offset)用于提取数据

numpy操作

[:None]
one_hot = np.zeros((3,2),dtype=np.float32)
a = np.exp(one_hot).sum(axis=1)[:,None]

[:None]作用:升维

关于one-hot向量
one_hot = np.zeros((3,2),dtype=np.float32)
one_hot[np.arange(3),1] = 1

假设one_hot有两维,第一维可以用arrange来赋值,第二维可以用别的赋值,来执行one_hot[i][1] = 1的操作。

np.eye(n)[i]

将label变为one-hot向量的简便方法。n是label数量,i是原来的label的1Dtensor。

函数返回类型

如果一个函数返回两个参数,比如:
def func():
a, b = 1, 2
return a, b
c = func()
那么,如果只用一个变量去接收它,返回的是元组。
想要返回的是列表,需要把return a, b改成return [a,b]

迭代器

def func1():
    return iter(range(21))
a = func1()
	print(a)
	#<range_iterator object at 0x000001CD2E56A9F0>
for b in a:
    print(b)

fun1返回的是迭代器,直接print的话是一个迭代器对象,可以用①for循环访问迭代器中的全部元素。
然后,我又想到了:

x1, y1 = map(int, input().split())  
B = list(map(int, input().split())) 

map返回的也是一个迭代器,还可以选择:②一个一个元素接收③转变为一个list

当然,还能怎么定义和使用迭代器?
定义迭代器:设置def __iter__方法。
调用迭代器:for x in xx
定义迭代器:设置def __iter__方法后调用iter(xx) 或者设置设置def __iter__方法和def__next__方法
调用迭代器:next(xx)
注意next还会和yeild结合在一起。
经典的实现是dataloader:DataLoader原理

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值