![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Python
文章平均质量分 61
江畔独步
这个作者很懒,什么都没留下…
展开
-
pip3 install命令执行时指定源+指定版本
【代码】pip3 install命令执行时指定源。原创 2023-05-23 23:42:52 · 4723 阅读 · 0 评论 -
使用Python 递归合并不同目录下小文件
背景项目中, 由网络爬虫爬取的日志文件, 需要导入到 hive 数据仓库中, 但日志文件包含很多的小文件, 散落在许多子文件夹下.总所周知, 当 hive 的输入端如果由许多小文件组成的话, 每个小文件都会启动一个 map 任务, 如果文件多而小, 会造成 map 任务启动和初始化的时间远大于逻辑处理的时间, 造成数据处理时间大大增加, 甚至会造成 OOM的后果.鉴于此, 当我们执行一个hive任原创 2016-07-13 11:31:52 · 2255 阅读 · 1 评论