最近对比flink的批处理,读取文件和读取hbase数据的时候,到底是哪种方式好,读取hbase的之前已经发过了,但是读取hdfs的没有,所以又写了一个测试了一下,其实根本不用考虑,如果是直接把文件数据整体读取过来,一定是直接读hdfs快,因为它不会增加一些scheme信息,而且也不用和zookeeper啊,Regionsever交互什么,这些事最根本的逻辑,不知道的自己去看hbase的存储原理。但是要是把这些数据拿过来计算,或者对数据做ETL,请问 我们的大数据这些组件是用来干嘛的?反思一下自己,不是就是为了ELAP或者ELTP提供方便的么,hbase为什么要用zookeeper做二级索引?为什么要用rowkey?为什么要有列簇?为什么列式存储?说到底为什么要去验证这个问题呢?
然后我们再来说说我们使用的这些组件,hbase它更倾向于使用合理的rowkey提供TB级别数据的毫秒级响应,一般可以结合ES使用,使用ES检索信息,然后使用Hbase查询详细信息,或者不想用可以使用hbase和hdfs的中间产品kudu啊,这些其实很多种方案,技术是开源的,如果我们不想用太多的东西或者组件又想有很高效的技术方案,这本来就是一个伪命题。那以后这种问题应该怎么去分析呢?就是得看我们的业务了,其实保守的思想迟早会被淘汰,有什么好的东西插件就可以拿来用,不是第一个吃螃蟹的放心,好多好用的组件BAT都已经用过了,所以我们不用太担心。如果怕技术不足,这是不能解决问题的,在技术领域不创新不跟上就等于落后。
最后在告诫一下大家,没事多学习,没错。
package com.flink.java.project.demo
import org.apache.flink.api.common.functions.{FilterFunction, MapFunction}
import org.apache.flink.api.scala.{DataSet, ExecutionEnvironment}
import org.apache.flink.api.scala._
/** *
*
* 需要的格式如下 DataSet[(Double, Double, String)]
* t1对应的字段位置 47
* t2对应的字段位置57
* t3对应的字段位置 45
*/
object FlinkHdfsDemo {
def main(args: Array[String]): Unit = {
val start=System.currentTimeMillis()
val env:ExecutionEnvironment=ExecutionEnvironment.getExecutionEnvironment
val source = env.readTextFile("hdfs:///data/text/data")
// val source = env.readTextFile("E:\\tmp\\hdfs\\hbase_text.txt")
val pfid = Array("101045","100099")
// val pfid = Array("100118")
val data: DataSet[(Double, Double, String)] =source.map(new MapFunction[String,(Double, Double, String)] {
override def map(line: String): (Double, Double, String) = {
val words = line.split(",")
//和hbase的过滤条件相同,PFID 是这两个的 "100016,100001"
val tuple3 = (words(47).toDouble,words(57).toDouble,words(45))
tuple3
}
}).filter(new FilterFunction[(Double, Double, String)] {
override def filter(value: (Double, Double, String)): Boolean = {
var flag=false
if(pfid.length>0) {
pfid.foreach(pf => {
if (pf.equals(value._3)) {
flag=true
}
})
}
flag
}
})
val result = HdfsBtCal.calculat(data)
val end=System.currentTimeMillis()
println("计算结果是:"+result+", 消耗时间:"+(end-start))
}
}