将csv转为parquet

环境
  • centos 6.5
  • CHD 5.15
  • spark 1

csv内容

$ cat test.txt
1|2|3|test
2|4|6|wwww

使用pyspark

from pyspark import SparkContext,SparkConf
from pyspark.sql import SQLContext
from pyspark.sql.types import *

if __name__ == "__main__":
    sc = SparkContext(appName="CSV2Parquet")
    sqlContext = SQLContext(sc)
    schema = StructType([
            StructField("id", StringType(), True),
            StructField("num1", StringType(), True),
            StructField("num2", StringType(), True),
            StructField("string", StringType(), True),
		])
    rdd = sc.textFile("/var/tmp/test.txt").map(lambda line: line.split("|"))
    df = sqlContext.createDataFrame(rdd, schema)
    df.write.parquet('/var/tmp/test.parq')

CDH提供parquet-tools命令查看parquet文件

parquet-tools cat sample.parq
parquet-tools head -n 2 sample.parq
parquet-tools schema sample.parq
parquet-tools meta sample.parq
parquet-tools dump
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值