Hadoop 和 spark 读取多个文件通配符规则(正则表达式)joe

最近在公司需要计算手机信令数据 但是每次spark读取文件的时候都是把当天24小时从头到尾读取一遍 非常耗时,在一步操作中处理批量文件,这个要求很常见。举例来说,处理日志的MapReduce作业可能会分析一个月的文件,这些文件被包含在大量目录中。Hadoop有一个通配的操作,可以方便地使用通配符在...

2017-07-09 14:22:46

阅读数 850

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭