flink批处理读取文件入库mysql

一、背景
由于业务统计数据,需要根据业务日志对业务情况进行简单分析处理统计,为了更好的查询统计则选择将业务日志汇总有用的数据筛选入库,由于数据非实时性,选择将日志内容导出,并使用flink批处理进行筛选、过滤、入库,后续通过sql语句查询统计,当然flink也可以进行统计,但是非重复性工作统计多变每次得改和跑程序读比较麻烦,故选择入库。
二、准备工作

  1. 新建一个maven项目
  2. 加入flink相关依赖包,选择启动类地址
<properties>
        <maven.compiler.source>8</maven.compiler.source>
        <maven.compiler.target>8</maven.compiler.target>
        <flink.version>1.14.0</flink.version>
        <target.java.version>1.8</target.java.version>
        <scala.binary.version>2.12</scala.binary.version>
        <hutool-all.version>5.3.8</hutool-all.version>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-walkthrough-common_${scala.binary.version}</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <!-- This dependency is provided, because it should not be packaged into the JAR file. -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-streaming-java_${scala.binary.version}</artifactId>
            <version>${flink.version}</version>

        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-clients_${scala.binary.version}</artifactId>
            <version>${flink.version}</version>

        </dependency>
        <!-- Add connector dependencies here. They must be in the default scope (compile). -->
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-connector-kafka_${scala.binary.version}</artifactId>
            <version>${flink.version}</version>
        </dependency>
        <dependency>
            <groupId>com.alibaba</groupId>
            <artifactId>fastjson</artifactId>
            <version>1.2.76</version>
        </dependency>
        <dependency>
            <groupId>cn.hutool</groupId>
            <artifactId>hutool-all</artifactId>
            <version>${hutool-all.version}</version>
        </dependency>
        <dependency>
            <groupId>org.projectlombok</groupId>
            <artifactId>lombok</artifactId>
            <version>1.18.24</version>
        </dependency>
        <dependency>
            <groupId>org.apache.commons</groupId>
            <artifactId>commons-dbcp2</artifactId>
            <version>2.1.1</version>
        </dependency>
        <dependency>
            <groupId>mysql</groupId>
            <artifactId>mysql-connector-java</artifactId>
            <version>8.0.21</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-jdbc_${scala.binary.version}</artifactId>
            <version>1.10.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.flink</groupId>
            <artifactId>flink-java</artifactId>
            <version>1.14.0</version>
        </dependency>
    </dependencies>
  <build>
    <plugins>
        <plugin>
            <groupId>org.apache.maven.plugins</groupId>
            <artifactId>maven-shade-plugin</artifactId>
            <configuration>
                <createDependencyReducedPom>false</createDependencyReducedPom>
            </configuration>
            <executions>
                <execution>
                    <phase>package</phase>
                    <goals>
                        <goal>shade</goal>
                    </goals>
                    <configuration>
                        <filters>
                            <filter>
                                <!-- 不要拷贝 META-INF 目录下的签名,否则会引起 SecurityExceptions 。 -->
                                <artifact>*:*</artifact>
                                <excludes>
                                    <exclude>META-INF/*.SF</exclude>
                                    <exclude>META-INF/*.DSA</exclude>
                                    <exclude>META-INF/*.RSA</exclude>
                                </excludes>
                            </filter>
                        </filters>
                        <transformers>
                            <transformer
                                    implementation="org.apache.maven.plugins.shade.resource.AppendingTransformer">
                                <resource>META-INF/spring.handlers</resource>
                            </transformer>
                            <transformer
                                    implementation="org.springframework.boot.maven.PropertiesMergingResourceTransformer">
                                <resource>META-INF/spring.factories</resource>
                            </transformer>
                            <transformer
                                    implementation="org.apache.maven.plugins.shade.resource.AppendingTransformer">
                                <resource>META-INF/spring.schemas</resource>
                            </transformer>
                            <transformer
                                    implementation="org.apache.maven.plugins.shade.resource.ServicesResourceTransformer" />
                            <transformer
                                    implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                                      <!-- 启动类地址 -->
                                <mainClass>com.test.DoveBootStrap</mainClass>
                            </transformer>
                        </transformers>
                    </configuration>
                </execution>
            </executions>
            <dependencies>
                <dependency>
                    <groupId>org.springframework.boot</groupId>
                    <artifactId>spring-boot-maven-plugin</artifactId>
                    <version>2.2.2.RELEASE</version>
                </dependency>
            </dependencies>
        </plugin>

三、具体实现

  • 利用flink自带的JDBCOutputFormat进行入库
public class DoveBootStrap {

    public static void main(String[] args) throws Exception {
        TimeInterval timer = DateUtil.timer();
        JDBCOutputFormat jdbcOutput = JDBCOutputFormat.buildJDBCOutputFormat()
                .setDrivername("com.mysql.cj.jdbc.Driver")
                .setDBUrl("jdbc:mysql://localhost:3306/sms?user=root&password=123456&serverTimezone=UTC")
                .setQuery("insert into sea_dove1 (id,send_time,phone,msg,business,source) values (?,?,?,?,?,?)")
                //设置为每有1000条数据就提交一次,这里可以不要也行
                .setBatchInterval(1000)
                .finish();
        //初始化批处理执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        //文件地址
        String filePath = "D:\\log\\seadove\\10yue.json";
        //读取文件内容
        DataSource<String> dataSource = env.readTextFile(filePath);
        //进行了数据的筛选
        FlatMapOperator<String, SeaDove> mapOperator = dataSource.flatMap(new SeaDoveFlatMapFunction());
        //筛选内容赋值
        MapOperator<SeaDove, Row> map = mapOperator.map(new MapFunction<SeaDove, Row>() {

            @Override
            public Row  map(SeaDove value) throws Exception {
                Row row = new Row(6);
                row.setField(0, SnowFlakeFactory.getSnowFlakeFromCache().nextId());
                row.setField(1, value.getSend_time());
                row.setField(2, value.getPhone());
                row.setField(3, value.getMsg());
                row.setField(4, value.getBusiness());
                row.setField(5, value.getSource());
                return row;
            }
        });
        //输出
        map.output(jdbcOutput);
        env.execute();
        System.out.println("JDBCOutputFormat 耗时:"+timer.interval());
    }
}

  • 文件数据百万入库27万约3分钟
    在这里插入图片描述
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flink中的批处理作业可以使用多种不同的数据源。以下是一些常用的批处理数据源示例: 1. 文件源:可以从本地文件系统或分布式文件系统(如HDFS)中读取数据。您可以使用`readTextFile`方法读取文本文件,或者使用`readCsvFile`方法读取CSV格式的文件。 ```java ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); DataSet<String> data = env.readTextFile("file:///path/to/file"); ``` 2. 集合源:可以直接从Java集合中读取数据。您可以使用`fromCollection`方法将Java集合转换为DataSet,或者使用`fromElements`方法将单个元素转换为DataSet。 ```java ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); List<Integer> data = Arrays.asList(1, 2, 3, 4, 5); DataSet<Integer> dataSet = env.fromCollection(data); ``` 3. 数据库源:可以从关系型数据库(如MySQL、PostgreSQL等)中读取数据。您可以使用Flink提供的JDBC连接器来读取数据库中的数据。 ```java ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment(); BatchTableEnvironment tableEnv = BatchTableEnvironment.create(env); // 创建JDBC连接器 JDBCOptions jdbcOptions = JDBCOptions.builder() .setDriverName("com.mysql.jdbc.Driver") .setDBUrl("jdbc:mysql://localhost:3306/db_name") .setUsername("username") .setPassword("password") .setTableName("table_name") .build(); // 从数据库中读取数据 Table table = tableEnv.fromJDBC(jdbcOptions); DataSet<Row> dataSet = tableEnv.toDataSet(table, Row.class); ``` 这些只是Flink中几种常见的批处理数据源示例,您还可以根据实际需求实现自定义的数据源。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值