大数据
Turing Yang
这个作者很懒,什么都没留下…
展开
-
Flink实时数仓——kafka入库Hive
实时数仓和离线数仓一样,为了问题追溯,也需要将业务数据持续化到数据库中,这里,将业务系统的数据生产到kafka,然后利用hive去消费kafka中的数据,其中不做任何处理,将全部数据入库,相当于离线数仓中的ODS层。 接下来,直接上代码了,代码中都有详细的注释。 第一部分,主程序:import com.migudm.flink001.utils.KafkaSourceHelper;import com.migudm.flink001.utils.b...原创 2022-05-09 10:57:12 · 1113 阅读 · 0 评论 -
大数据之pysaprk安装
windows下安装Pysparkpyspark简介AnacondaPysparkjdkwinutils总结pyspark简介Spark主要是由Scala语言开发,为了方便和其他系统集成而不引入scala相关依赖,部分实现使用Java语言开发,例如External Shuffle Service等。总体来说,Spark是由JVM语言实现,会运行在JVM中。然而,Spark除了提供Scala/Java开发接口外,还提供了Python、R等语言的开发接口,为了保证Spark核心实现的独立性,Spark仅在原创 2020-11-25 17:15:16 · 319 阅读 · 0 评论