2020年11月_小白白白又白cdllp

11月 09月 08月 07月 06月 05月

原创 Pyspark获取hdfs上多个文件

（作者：陈玓玏）这个需求可以一分为二：我想直接读取所有文件并合并结果；我想获取文件路径，然后再一个一个获取结果。第一种，可以用sc.textFile(path)，直接批量读取文件第二种，我暂时没找到pyspark里的好方法，所以我直接用命令行+解析命令行结果的操作进行的。命令行获取文件路径：d = os.popen("hadoop fs -ls /user/log/ctm_api_logs | awk ‘{print $8}’ ").read().split(’\n’)解析命令

2020-11-17 14:30:21 4381

原创 Python读取snappy后缀文件

（作者：陈玓玏）需要读取个hbase表调用的日志文件，是snappy后缀的。snappy是压缩文件，如果要读取其中内容，我们需要先进行解压操作。#不是这个包pip3.6 install snappy --user#是这个包pip3.6 install python-snappy --user安装好之后，python3.6进入python，读文件的时候最好加上’rb‘，否则可能报编码问题import snappycompressed = open('logs.snappy','rb').r

2020-11-17 14:25:08 4953 4

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人