Hadoop Parquet File 文件的读取

最新推荐文章于 2024-07-06 02:51:37 发布

leishenop

最新推荐文章于 2024-07-06 02:51:37 发布

阅读量8k

点赞数

分类专栏： HDFS 文章标签： hadoop parquet

本文链接：https://blog.csdn.net/leishenop/article/details/71628353

版权

这篇博客介绍了如何使用Spark SQL从CSV文件中读取数据并转化为Parquet格式。首先，展示了如何生成Parquet数据，接着详细说明了读取Parquet文件的模式信息，包括字段名称和类型，最后演示了如何读取并以JSON格式展示Parquet文件中的数据。

摘要由CSDN通过智能技术生成

产生parquet数据

这里通过Spark SQL来从CSV文件中读取数据，然后把这些数据存到parquet文件去。

        SparkContext context = new SparkContext(new           SparkConf().setMaster("local").setAppName("parquet")); 
        SQLContext sqlContext = new SQLContext(context);
        DataFrame dataFrame = sqlContext.read().format("com.databricks.spark.csv")
                .option("header","true") //这里如果在csv第一行有属性的话，没有就是"false"
                .option("inferSchema","true")