tf从hdfs 直接获取数据训练模型

最新推荐文章于 2022-07-07 17:07:34 发布

赵小丽-programer

最新推荐文章于 2022-07-07 17:07:34 发布

阅读量1.8k

点赞数

分类专栏：推荐系统机器学习

本文链接：https://blog.csdn.net/lili555521/article/details/105764592

版权

本文介绍了如何在TensorFlow 1.13和Python 2.7环境下，直接从HDFS获取数据进行模型训练。通过配置input_fn和shell环境，解决了libhdfs.so与libjvm.so缺失的问题，训练时长增加6%，但AUC训练效果保持不变。需要注意数据加载前需打乱顺序。

摘要由CSDN通过智能技术生成

文章目录

背景

训练集数据集比较大，目前train 集合已经27G，每次占用的磁盘空间较大
getmerge 时间太长，15分钟用来获取训练集、测试集、评估集

操作

环境tensorflow1.13 ,python2.7

获取hdfs 的文件目录

此处主要参考了：https://blog.csdn.net/liukanglucky/article/details/102952686

import commands
import re
import tensorflow as tf
def get_file_list( root_path,path_pattern=[]):
    """
    生成hdfs file list
    :param path_pattern:
    :param root_path
    :return:
    """
    cmd = """hadoop fs -ls -R {}""".format(root_path.strip())
    if len(path_pattern) == 0:
        pattern = "|".join(["(" + str(p.replace('/', '\/')) + ")" for p in path_pattern])
    else:
        pattern = ""
    # 筛选文件
    def validate_path_pattern(path

最低0.47元/天解锁文章

赵小丽-programer

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
tf从hdfs 直接获取数据训练模型

文章目录背景操作环境tensorflow1.13 ,python2.7获取hdfs 的文件目录input_fnshell 中配置需要额外关注的是：从hdfs 训练，需要在保存数据之前打乱顺序与本地相比，训练运行耗时增长6%，AUC训练效果不受影响注意背景训练集数据集比较大，目前train 集合已经27G，每次占用的磁盘空间较大getmerge 时间太长，15分钟用来获取训练集、测试集、评...
复制链接

扫一扫

专栏目录