Tensorflow第二课文件读取

最新推荐文章于 2022-07-22 14:01:46 发布

机智帅气的葫芦娃

最新推荐文章于 2022-07-22 14:01:46 发布

阅读量812

点赞数 2

分类专栏： tensorflow

本文链接：https://blog.csdn.net/clever_wr/article/details/80277075

版权

tensorflow 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

和java和scala处理的方式不同，tensorflow在进行hdfs文件读取的时候主要是先要import HdfsClient这个包然后才能进行相应的hdfs文件读取

from pyhdfs import HdfsClient
client = HdfsClient(hosts = '172.18.11.72:50070')
print(client.list_status('/'))
file = client.open("/scaler.0.2/part-00000")
count = 0
while 1:
    line = file.readline()
    print line
    count = count + 1
    if not line:
        break
print ("count:" + count)

while 1:里面的部分是对hdfs文件按行读，并测试行数。但是在读取hdfs文件的时候tensorflow的速度真的是很慢。上面的程序对于167万行左右的文件数竟然跑了好几个小时。。。我和我的小伙伴都惊呆了，我就在想难道tensorflow加载数据这么慢吗？带着这个疑问我又进行了本地文件的读取，事情有了转折。

path = "/home/wangrui/important/data.scaler.svm.0.2/part-00000"
with open(path,'r') as file:
# with client.open("/scaler.0.2/part-00000") as file:
    lines = file.readlines()
    count = 0
    for line in lines:
        word = line.split(" ")
        features = []
        label = []
        for i in range(1, len(word)):
            if i < (len(word) - 1):
                features.append(word[i].split(":")[1])
            else:
                features.append(word[len(word) - 1].split(":")[1].split("\n")[0])
        label.append(int(word[0]))
        )
        write.write(example.SerializeToString())
    write.close()

这个操作所需要的时间竟然只要几分钟，也就是说只有在加载hdfs文件的时候才会出现上面那种读取数据花费很长时间的情况，对于本地的数据，tensorflow还是很正常的。如果有知道为什么会这样的小伙伴可以在评论中告诉我，让我解除一下疑惑。同时希望可以一起学习。