java spark 读取csv_spark解析CSV文件

该博客展示了如何在Java中使用Spark读取CSV文件并进行操作。首先,通过SparkConf和SparkContext创建Spark配置和上下文。接着,利用SQLContext读取CSV文件,并设置分隔符和包含头部信息。然后,遍历RDD并打印数据,展示其数据结构。最后,将RDD转换为DataFrame并显示数据,完成CSV文件的解析与处理。
摘要由CSDN通过智能技术生成

import java.util

import org.apache.spark.sql.types.{DataTypes, StructField}

import org.apache.spark.sql.{Row, SQLContext}

import org.apache.spark.{SparkConf, SparkContext}

object TelephoneData13 {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setMaster("local").setAppName("TelephoneData13")

val sc = new SparkContext(conf)

val sQLContext = new SQLContext(sc)

val rdd = sQLContext.read.format("com.databricks.spark.csv")

.option("sep", ",")

.option("header", "true")

.load("F:\\ideaWorkspace\\hello\\data\\yy.csv")

rdd.foreach(x => println(x))

rdd.printSchema()

rdd.show(1000,false)

val temp = rdd.rdd.map(line => {

Row(

line.getString(0).toString,

<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
下面是一个简单的 Java 代码示例,使用 Spark 读取 CSV 文件: ```java import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; import org.apache.spark.sql.types.DataTypes; import org.apache.spark.sql.types.StructField; import org.apache.spark.sql.types.StructType; import java.util.Arrays; import java.util.List; public class SparkCSVReader { public static void main(String[] args) { // 创建 SparkSession SparkSession spark = SparkSession.builder() .appName("SparkCSVReader") .master("local[*]") .getOrCreate(); // 创建 SparkContext JavaSparkContext sc = new JavaSparkContext(spark.sparkContext()); // 定义 CSV 文件的结构 List<StructField> fields = Arrays.asList( DataTypes.createStructField("id", DataTypes.LongType, true), DataTypes.createStructField("name", DataTypes.StringType, true), DataTypes.createStructField("age", DataTypes.IntegerType, true), DataTypes.createStructField("gender", DataTypes.StringType, true) ); StructType schema = DataTypes.createStructType(fields); // 读取 CSV 文件为 DataFrame Dataset<Row> df = spark.read() .option("header", "true") .option("delimiter", ",") .schema(schema) .csv("path/to/csv/file.csv"); // 转换为 JavaRDD JavaRDD<Row> rdd = df.toJavaRDD(); // 输出结果 rdd.foreach(System.out::println); // 关闭 SparkContextSparkSession sc.close(); spark.close(); } } ``` 这个代码示例使用 SparkSession 创建了一个本地模式的 SparkContext,然后定义了 CSV 文件的结构,并使用 Spark SQL 读取 CSV 文件为 DataFrame,最后将 DataFrame 转换为 JavaRDD 并输出结果。注意需要在 pom.xml 中添加 Spark 依赖。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值