Flink的dataset读取文件

最新推荐文章于 2024-05-10 19:29:06 发布

꧁꫞ND꫞꧂

最新推荐文章于 2024-05-10 19:29:06 发布

阅读量587

点赞数

分类专栏： Flink

本文链接：https://blog.csdn.net/Baron_ND/article/details/108432932

版权

Flink 专栏收录该内容

52 篇文章 8 订阅

订阅专栏

最近对比flink的批处理，读取文件和读取hbase数据的时候，到底是哪种方式好，读取hbase的之前已经发过了，但是读取hdfs的没有，所以又写了一个测试了一下，其实根本不用考虑，如果是直接把文件数据整体读取过来，一定是直接读hdfs快，因为它不会增加一些scheme信息，而且也不用和zookeeper啊，Regionsever交互什么，这些事最根本的逻辑，不知道的自己去看hbase的存储原理。但是要是把这些数据拿过来计算，或者对数据做ETL，请问我们的大数据这些组件是用来干嘛的？反思一下自己，不是就是为了ELAP或者ELTP提供方便的么，hbase为什么要用zookeeper做二级索引?为什么要用rowkey?为什么要有列簇？为什么列式存储？说到底为什么要去验证这个问题呢？

然后我们再来说说我们使用的这些组件，hbase它更倾向于使用合理的rowkey提供TB级别数据的毫秒级响应，一般可以结合ES使用，使用ES检索信息，然后使用Hbase查询详细信息，或者不想用可以使用hbase和hdfs的中间产品kudu啊，这些其实很多种方案，技术是开源的，如果我们不想用太多的东西或者组件又想有很高效的技术方案，这本来就是一个伪命题。那以后这种问题应该怎么去分析呢？就是得看我们的业务了，其实保守的思想迟早会被淘汰，有什么好的东西插件就可以拿来用，不是第一个吃螃蟹的放心，好多好用的组件BAT都已经用过了，所以我们不用太担心。如果怕技术不足，这是不能解决问题的，在技术领域不创新不跟上就等于落后。

最后在告诫一下大家，没事多学习，没错。

package com.flink.java.project.demo
import org.apache.flink.api.common.functions.{FilterFunction, MapFunction}
import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}
import org.apache.flink.api.scala._
/** *
 *
 *  需要的格式如下 DataSet[(Double, Double, String)]
 *   t1对应的字段位置   47
 *   t2对应的字段位置57
 *   t3对应的字段位置 45
 */

object FlinkHdfsDemo {
  def main(args: Array[String]): Unit = {
    val start=System.currentTimeMillis()
    val env:ExecutionEnvironment=ExecutionEnvironment.getExecutionEnvironment
    val source = env.readTextFile("hdfs:///data/text/data")
//    val source = env.readTextFile("E:\\tmp\\hdfs\\hbase_text.txt")

    val pfid = Array("101045","100099")
//    val pfid = Array("100118")
    val data: DataSet[(Double, Double, String)] =source.map(new MapFunction[String,(Double, Double, String)] {
        override def map(line: String): (Double, Double, String) = {
          val words = line.split(",")
          //和hbase的过滤条件相同，PFID 是这两个的 "100016,100001"
          val tuple3 = (words(47).toDouble,words(57).toDouble,words(45))
          tuple3
        }
    }).filter(new FilterFunction[(Double, Double, String)] {
      override def filter(value: (Double, Double, String)): Boolean = {
        var flag=false
        if(pfid.length>0) {
          pfid.foreach(pf => {
            if (pf.equals(value._3)) {
              flag=true
            }
          })
        }
        flag
      }
    })
    val result = HdfsBtCal.calculat(data)
    val end=System.currentTimeMillis()
    println("计算结果是："+result+"， 消耗时间："+(end-start))
  }




}

꧁꫞ND꫞꧂

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
Flink的dataset读取文件

最近对比flink的批处理，读取文件和读取hbase数据的时候，到底是哪种方式好，读取hbase的之前已经发过了，但是读取hdfs的没有，所以又写了一个测试了一下，其实根本不用考虑，如果是直接把文件数据整体读取过来，一定是直接读hdfs快，因为它不会增加一些scheme信息，而且也不用和zookeeper啊，Regionsever交互什么，这些事最根本的逻辑，不知道的自己去看hbase的存储原理。但是要是把这些数据拿过来计算，或者对数据做ETL，请问我们的大数据这些组件是用来干嘛的？反思一...
复制链接

扫一扫