内存占用降低篇——输入数据压缩

最新推荐文章于 2022-12-04 17:21:54 发布

不会飞的蛋白龙

最新推荐文章于 2022-12-04 17:21:54 发布

阅读量283

点赞数

分类专栏：机器学习文章标签：机器学习常用技巧内存优化

本文链接：https://blog.csdn.net/qq_35841363/article/details/103173434

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在参加机器学习类比赛项目时，经常会遇到输入数据量过大，导致读入输入数据时占用内存过多的问题，对于配置较低的电脑造成较大的负担。对此，经常使用数据压缩（高精度数据类型转为低精度数据类型）的方法缓解这一问题，具体代码如下：

def reduce_mem_usage(df, verbose=True):
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2    
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)    
    end_mem = df.memory_usage().sum() / 1024**2
    if verbose: print('Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction)'.format(end_mem, 100 * (start_mem - end_mem) / start_mem))
    return df

原理显而易见，就是通过数值范围限制，合理使用低精度类型替换高精度类型，使得即不损伤原数据精度，又可以降低整体的数据空间占用。

不会飞的蛋白龙

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
内存占用降低篇——输入数据压缩

在参加机器学习类比赛项目时，经常会遇到输入数据量过大，导致读入输入数据时占用内存过多的问题，对于配置较低的电脑造成较大的负担。对此，经常使用数据压缩（高精度数据类型转为低精度数据类型）的方法缓解这一问题，具体代码如下：def reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', 'floa...
复制链接

扫一扫

专栏目录