![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据生态圈
我是星星我会发光i
路是一步一步走出来的,情是一点一点换回来的,人生也是这样一页一页真实翻过来的。
展开
-
Java代码创建hive外部表分区
Java代码创建hive外部表分区,简单便捷,主要是嗖嗖的原创 2022-06-02 12:04:03 · 557 阅读 · 0 评论 -
FlinkSql(三)代码中的注意点
1.数据类型与 Table schema 的对应 DataStream 中的数据类型,与表的 Schema 之间的对应关系,是按照样例类中的字段名来对应的(name-based mapping),所以还可以用 as 做重命名。另外一种对应方式是,直接按照字段的位置来对应(position-based mapping),对应的过程中,就可以直接指定新的字段名了。基于名称的对应:val sensorTable = tableEnv.fromDataStream(dataStream, 'tim原创 2020-08-09 11:09:59 · 1215 阅读 · 0 评论 -
FlinkSql(二)API使用-sink
表的输出,是通过将数据写入 TableSink 来实现的。TableSink 是一个通用接口,可以支持不同的文件格式、存储数据库和消息队列。具体实现,输出表最直接的方法,就是通过 Table.insertInto() 方法将一个 Table 写入注册过的 TableSink 中。原创 2020-08-09 10:49:26 · 1579 阅读 · 0 评论 -
FlinkSql(二)API使用-transform
这个算子可以说是很多的,查看官方文档即可https://ci.apache.org/projects/flink/flink-docs-release-1.11/dev/table/tableApi.html#column-operations这个是从flink官网整下来的,需要什么找那个就行// environment configuration// ...// specify table programval orders: Table = tEnv.from("Orders") //原创 2020-08-08 23:38:04 · 218 阅读 · 2 评论 -
FlinkSql(二)API使用-source
0.前言FlinkSql的使用与流式计算结构是一样的,source、transform、sink,因此首先研究source。1创建表环境//创建流式计算的执行环境val env = StreamExecutionEnvironment.getExecutionEnvironment//表环境基于流式计算的环境createval tableEnv : StreamTableEnvironment = StreamTableEnvironment.create(env)2source(f原创 2020-08-08 23:29:06 · 245 阅读 · 0 评论 -
FlinkSql(一)上手案例
Flink 本身是批流统一的处理框架,所以 Table API 和 SQL,就是批流统一的上层处理 API。原创 2020-08-08 22:52:21 · 479 阅读 · 0 评论 -
Flink(八)时间语义与 Wartermark
一、Flink中的时间语义 在 Flink的流式处理中,会涉及到时间的不同概念,如下图所示: Event Time 是事件创建的时间。它通常由事件中的时间戳描述,例如采集的日志数据中,每一条日志都会记录自己的生成时间Flink通过时间戳分配器访问事件时间戳 Ingestion time 是数据进入Flink的时间 Processing Time 是每一个执行基于时间操作的算子的本地系统时间,与机器相关,默认的时间属性就是 Proc...原创 2020-07-20 10:30:48 · 622 阅读 · 1 评论 -
Flink(七)Window
一、Window1.Window 概述 Streaming 流式计算是一种被设计用于处理无限数据集的数据处理引擎,而无限数据集是指一种不断增长的本质上无限的数据集,而 window 是一种切割无限数据为有限块进行处理的手段。 Window 是无限数据流处理的核心,Window 将一个无限的 stream 拆分成有限大小的”buckets”桶,我们可以在这些桶上做计算操作。2..Window类型 Window 可以分成两类:CountWindow:按照指...原创 2020-07-19 22:44:38 · 130 阅读 · 0 评论 -
Flink(六)流处理API-Sink
一、Kafka1.添加依赖<!--https://mvnrepository.com/artifact/org.apache.flink/flink-connector-kafka-0.11--><dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka-0.11_2.11</artifactId>.原创 2020-07-19 21:55:59 · 423 阅读 · 0 评论 -
Flink(五)转换算子
1.flatMap 数据扁平化操作 val data: DataSet[String] = env.readTextFile(inputPath) //3.对数据进行切分及其处理 val value: DataSet[String] = data.flatMap( ( _.split(",")) )2.map 改变其数据结构 //3.对数据进行切分及其处理 val value: DataSet[(String, String)] = data.map(原创 2020-07-19 21:39:40 · 323 阅读 · 0 评论 -
Flink(四)流处理API-Source
1.从集合读取数据package com.flink.sounceimport org.apache.flink.streaming.api.scala._/** * @Author :star * @Date :2020/7/4 12:56 * @Version :1.0 */object ReadList { //从集合中读取数据 def main(args: Array[String]): Unit = { // 创建flink执行环境 val.原创 2020-07-19 18:06:09 · 355 阅读 · 0 评论 -
Flink(三)运行架构
一、flink 运行时的组件 Flink 运行时架构主要包括四个不同的组件,它们会在运行流处理应用程序时协同工作:作业管理器(JobManager)、资源管理器(ResourceManager)、任务管理器(TaskManager),以及分发器(Dispatcher)。因为 Flink是用 Java和 Scala实现的,所以所有组件都会运行在Java 虚拟机上。作业管理器(JobManager) 控制一个应用程序执行的主进程,也就是说,每个应用程序都会被...原创 2020-07-19 17:49:13 · 264 阅读 · 0 评论 -
Flink(二)集群部署
有不懂及不对的地方请大家提出,共同探讨与进步1.下载flink包https://archive.apache.org/dist/flink/ 根据自己的选择下载 我这里用的是flink-1.7.02.解压缩tar -xvzf flinkxxx.tgz -C dir2.解压缩3.修改配置文件(1)vi conf/flink-conf.yaml 主要是修改 jobmanager.rpc.address: hdp-1# JobManager runs.jobmanager.rpc...原创 2020-07-19 13:05:54 · 308 阅读 · 0 评论 -
Flink(一)上手案例
1.搭建maven工程这里就不多说了2.导入依赖<dependencies> <dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-scala_2.11</artifactId> <version>1.7.2</version>原创 2020-07-19 12:17:05 · 382 阅读 · 0 评论 -
Hadoop HDFS基本操作
Hadoop基本操作RI uri = new URI(“hdfs://hdp-1:9000”); /* * Conguration配置 * new Configuration(); * 1.先去加载core-default.xml hdfs-default.xml * 2.再去加载core-site.xml hdfs-site.xml * 3.最后再加载代码中的配置conf...原创 2019-04-19 09:01:23 · 10366 阅读 · 0 评论 -
zookeeper基础环境搭建及启动脚本
zookeeper功能:(1)可以为客户端管理少量数据(数据库)(2)可以为客户端监听节点的状态,并在数据节点发生变化时通知客户端(3)场景:动态增加服务器1.上传安装包解压 tar -zxvf name -C apps/2.改名字cp zoo_sample.cfg zoo.cfg3.修改conf/zoo.cfg#The number of milliseconds of eac...原创 2019-04-22 17:07:52 · 10487 阅读 · 0 评论 -
Centos7安装Hive与MySQL
Centos7安装Hive注意:使用MySQL8,hive操作时会出现卡着不动的现象,问题现在并未解决,有解决的请告知一声Hive使用的数据库不在是mariadb 而是mysql,因此先装mysql 官网下载MySQLhttps://dev.mysql.com/downloads/mysql/3.下载完成后上传到虚拟机上传目录可随意指定4.通过rpm -qa | ...原创 2019-10-16 13:56:34 · 10832 阅读 · 6 评论 -
kafka基本配置与使用
搭建kafka环境1.解压kafka资源包(将kafka上传到根路径)tar -xvzf kafka_2.12-2.2.0.tgz -C apps2.在apps/kafka_12-2.2.0路径下创建logs文件夹mkdir logs3.修改配置文件[root@hdp-1 kafka_2.12-2.2.0]# cd config/[root@hdp-1 con...原创 2019-10-12 08:59:15 · 9720 阅读 · 0 评论 -
大数据开发之Sqoop(对所学内容进行总结)
Sqoop官方文档(开发人员指南):http://sqoop.apache.org/docs/1.99.7/dev.html用户指南:http://sqoop.apache.org/docs/1.99.7/user.html没有用客户端来操作因此详情看官方Java客户端API指南:http://sqoop.apache.org/docs/1.99.7/dev/ClientAPI.html...原创 2019-09-08 09:19:19 · 10708 阅读 · 0 评论