- 博客(2)
- 资源 (8)
- 收藏
- 关注
原创 使用Python 递归合并不同目录下小文件
背景项目中, 由网络爬虫爬取的日志文件, 需要导入到 hive 数据仓库中, 但日志文件包含很多的小文件, 散落在许多子文件夹下.总所周知, 当 hive 的输入端如果由许多小文件组成的话, 每个小文件都会启动一个 map 任务, 如果文件多而小, 会造成 map 任务启动和初始化的时间远大于逻辑处理的时间, 造成数据处理时间大大增加, 甚至会造成 OOM的后果.鉴于此, 当我们执行一个hive任
2016-07-13 11:31:52 2261 1
转载 欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl
2016-07-13 10:50:18 230
azkaban-binary-2.5.0二进制安装包(含Web + executor + sql等全部模块)
2020-11-20
logstash-6.3.2.zip
2020-01-02
RedisWindowsAllinone.zip
2019-11-05
kafka-manager-1.3.3.23.zip
2019-07-02
jdk-8u191-linux-x64.tar.zip
2019-05-15
pip安装脚本(支持python2、python3)
2019-02-13
shipyard 一键部署脚本
2018-11-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人