flink: table api之读取csv文件

package cn.edu.tju.demo2;

import org.apache.flink.api.common.typeinfo.TypeInformation;
import org.apache.flink.api.java.tuple.Tuple3;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.TableEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.table.sources.CsvTableSource;
import org.apache.flink.table.sources.TableSource;
import org.apache.flink.types.Row;

public class Test31 {
    public static void main(String[] args) throws Exception {
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        String[] fields = new String[]{"a", "b", "c"};
        TypeInformation stringType = TypeInformation.of(String.class);
        TypeInformation[] typeInformation = new TypeInformation[]{
                stringType, stringType, stringType
        };
        TableSource csvSource = new CsvTableSource("\\tool\\00.csv", fields, typeInformation);

        tableEnv.registerTableSource("csvTable", csvSource);
        Table csvTable = tableEnv.scan("csvTable");
        Table selectTable = csvTable.select("a, b");
        DataStream<Row> resultDataStream = tableEnv.toAppendStream(selectTable, Row.class);
        resultDataStream.print();
        env.execute("my job");


    }
}

Flink是一个开源的流处理框架,用于处理大规模的数据流。从Flink 1.12版本开始,Table API和SQL成为Flink的核心API之一,提供了一种声明式编程接口。在Flink 1.17版本中,可以使用Table API或SQL来读取CSV文件。 以下是使用Flink Table API读取CSV文件的基本步骤: 1. 首先,需要将CSV文件作为数据源加入到Flink环境中。使用`readTextFile`方法可以读取文本文件,但这不是处理CSV的最佳方式,因为CSV文件可能包含复杂的分隔符和引号等。 2. 更好的选择是使用`read_csv`方法。这要求首先定义一个CSV格式的schema,以便Flink能够正确解析CSV文件中的数据。这个schema定义了CSV中各列的数据类型。 3. 使用`fromPath`或者`fromUri`方法来指定CSV文件的路径,然后通过`read`方法读取数据。 以下是一个简单的代码示例: ```java import org.apache.flink.api.java.ExecutionEnvironment; import org.apache.flink.table.api.bridge.java.BatchTableEnvironment; import org.apache.flink.table.api.Table; import org.apache.flink.table.descriptors.Csv; import org.apache.flink.table.descriptors.Schema; import org.apache.flink.types.Row; public class FlinkReadCSVExample { public static void main(String[] args) throws Exception { // 创建一个执行环境 ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); BatchTableEnvironment tableEnv = BatchTableEnvironment.create(env); // 定义输入的schema,指定各个字段的名称和类型 Schema schema = new Schema() .field("id", Types.INT()) .field("name", Types.STRING()) .field("age", Types.INT()); // 注册表,并指定数据源路径和schema tableEnv.connect(new Csv().path("path/to/csvfile.csv")) .withFormat(schema) .withSchema(schema) .createTemporaryTable("csvInput"); // 执行SQL查询 Table result = tableEnv.sqlQuery("SELECT id, name, age FROM csvInput"); // 将Table转换为DataSet DataSet<Row> resultDataSet = tableEnv.toDataSet(result, Row.class); // 执行Flink程序 resultDataSet.print(); } } ``` 注意:上述代码是Flink 1.17版本之前的写法,新版本可能有所不同,具体请参考Flink官方文档和版本更新说明。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值