No.6大数据入门 | MR实践:文件分发方式-cacheArchive

上文我们介绍了两种分发文件方式,接下来我们介绍第三种:通过解压压缩包形式进行文件分发:其中white_list是以压缩包形式上传的,并且也是需要先上传至hdfs上,这里我们的压缩包如下:
在这里插入图片描述
将其上传至hdfs上:
在这里插入图片描述

3)-cacheArchive形式分发

map.py需要重新开发,对目录进行遍历并读取压缩包文件的内容:

#!/usr/bin/python

import os

import sys

import gzip

import time

def get_file_handler(f):

    file_in = open(f, 'r')

    return file_in

def get_cachefile_handlers(f):

    f_handlers_list = []

    if os.path.isdir(f):

        for fd in os.listdir(f):

            f_handlers_list.append(get_file_handler(f + '/' + fd))

    return f_handlers_list

def read_local_file_func(f):

    word_set = set()

    for cachefile in get_cachefile_handlers(f):

        for l
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值