- 博客(71)
- 资源 (44)
- 收藏
- 关注
原创 Flink系列:事件Time时间乱序到达处理方法
到达时间无序kafka的数据,不一定按照时间产生的时间到达flink,为了解决这个问题,需要引入Watermark时间到达的3中情况顺序到达乱序到达并发到达Watermark如果指定多个Watermark,后面的将覆盖前面的。两种方法基于时间周期(推荐)周期性(默认100ms)生成和发送Watermark,定义一个最大允许乱序时间。基于特定事件如果发生特定事件,则生成和发送Watermark...
2020-06-30 19:26:19 6567
原创 Flink系列:事件Time时间分类(指定事件时间)
时间分类Stream数据中的Time(时间〉有下面3种:• Event Time 事件产生的时间• Ingestion Time 事件进入Flink的时间 • Processing Time 事件被处理时当前系统的时间流转图指定Stream数据中的Time/默认是处理时间为基础,可以修改:env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime)...
2020-06-30 18:35:13 2471 1
原创 Flink系列:Window窗口增量/全量聚合方法(reduce、aggregate 、apply、process)
目录增量聚合实现方法举例reduceaggregate全量聚合实现方法举例applyprocess扩展增量聚合指窗口每进入一条数据就计算一次实现方法举例reduceaggregate全量聚合指在窗口触发的时候才会对窗口内的所有数据进行一次计算(等窗口的数据到齐,才开始进行聚合计算,可实现对窗口内的数据进行排序等需求)实现方法apply(windowFunction) proc...
2020-06-30 11:25:03 8946 1
原创 Flink系列:State状态使用方法
目录State和CheckPoint容错:快照创建与恢复使用方法flink-conf.yamlsavepointState和CheckPoint一个Task在处理过程中出现了异常,那么状态State就会丢失。State指某个具体的 Task/Operator 的状态,State保存在TaskManager内存中,CheckPoint存储在JobManager内存中。CheckPoint(把State数据持久化存储),表示了Flink Job在一个特定时刻的一份..
2020-06-29 18:36:20 8941
原创 Linux系列:CPU、内存定位性能问题
# CPU使用前N的进程列表ps -aeo pcpu,user,pid,cmd | sort -nr | head -20# 内存使用前N的进程列表ps -axo %mem,euser,pid,cmd | sort -nr | head -20
2020-06-29 17:57:39 440
原创 Flink系列:分布式缓存Distributed Cache使用方法
工作机制为程序注册 个文件或者目录(本地或者远程文件系统,如 HDFS),通过 ExecutionEnvironment为它明明。当程序执行时, Flink 自动将文件或者目录复制到所有 TaskManager 节点的本地文件系统,用户可以通过这 个指定的名称查找文件或者目录,然后从 TaskManager 节点的本地文件系统访问它。注册使用...
2020-06-29 12:07:40 953
原创 Flink系列:Accumulator的使用方法
FlinkAccumulator Count 是一个具体累加器的实现, 常用的Counter有:IntCounter、LongCounter、DoubleCounter如果并行度为1,则普通求和即可 ;如果设置多个并行,则普通累加器求和的结果就不准确 Flink Broadcast和Accumulator 的区别 • Broadcast 允许将1个只读的变量缓存在多台机器上,而不用在任务之间传递变量。广播变量可以进行共享 ,但是不可以进行修改 • Accumu...
2020-06-28 00:27:49 1344
原创 Flink系列:Broadcast的使用方法
区别DataStream 中的 Broadcast (分区规则):分区规则是把元素广播给所有的分区,数据会被重复处理DataStream.broadcast () Flink 中的 Broadcast(广播变量〉功能在每台机器上保持一个只读的缓存变量, 而不是传送变量的副本给 Task 。广播变量创建后,它可以运行在集群中的任何Function上,而不需要多次传递给集群节点。注意,不要修改广播变量,这样才能确保每个节点获取到的值都是一 致的。Fli...
2020-06-28 00:27:44 2866
原创 Flink系列:DataStream Data Set Table 之间的转换
Flink系列:DataStream Data Set Table 之间的转换
2020-06-27 23:53:33 1315
原创 Flink系列:Table API 和SQL使用方法
Flink提供了两种 API : Table API、SQL Table API (流处理)允许用户以 种很直观的方式进行 select 、filter join 操作; Flink SQL (批处理)支持基于 Apache Calcite 实现的标准 SQL 针对批处理和流处理可以提供相同的处理语义和结果。依赖包使用方法加载输入输出通过TableSource读取数据和通过TableSink写出数据。...
2020-06-27 23:52:49 287
原创 Flink系列:Sink API使用方法
Flink自带APIwriteAsText()将元素以字符串形式逐行写入,这些字符串通过调用每个元素的 toString()方法来获取。print() / printToErr()打印每个元素的toString()方法的值到标准输岀或者标准错 误输出流中。自定义输出addSink可以实现把数据输出到第三方存储介质中。实现 SinkFunction 接口。 继承 RichSinkFunction 类。...
2020-06-27 23:31:42 855
原创 Flink系列:Transformation API使用方法
Transformation自带DataSet算子Map:输入一个元素,然后返回一个元素,中间可以进行清洗转换等操作。 FlatMap :输入一个元素,可以返回零个、一个或者多个元素。 Filter :过滤函数,对传入的数据进行判断,符合条件的数据会被留下。 KeyBy :根据指定的Key进行分组,Key相同的数据会进入同一个分区。KeyBy的两种典型用法DataStream.keyBy("someKey")指定对象中的someKey段作为分组Key。 DataStream.key...
2020-06-27 23:26:21 396
原创 Flink系列:DataStream API介绍
目录DataStream读取文件读取Socket读取集合自定义Source容错性DataStream读取文件readTextFile(path)读取SocketsocketTextStream读取集合fromCollection自定义SourceaddSource实现SourceFunction接口来自定义无并行度(也就是并行度只能为1)的数据源。 实现 ParallelSourceFunction 接口来...
2020-06-27 23:12:48 285
原创 Flink系列:DataStream API使用
DataStream API 主要分为 块: DataSource Transformation, SinkDataSource是程序的数据源输入,可以通过 StreamExecutionEnvironment. addSource( sourceFunction)为程序添加1个数据源 Transformation 是具体的操作,它对一个或多个输入数据源进行计算处理,比如 Map FlatMap Filter 等操作 Sink 是程序的输出,它可...
2020-06-27 22:22:11 339
原创 Flink系列:Flink集群HA高可用
目录Flink Standalone高可用性Flink on Yarn 高可用性默认情况下,每个 Flink 集群只有一个 JobManager ,这将导致单点故障 SPOF)。使用 JobManager HA 集群可以从 Jo Manager 故障中恢复,从而避免单点故障 。用户 可以在Stan one li nk on Yarn 集群模式下配置 link 集群 (高可用性〉。 Flink Standalone高可用性任何时候都有 MasterManag...
2020-06-27 21:52:27 738
原创 Flink系列:单词统计Demo(批处理、流式处理)
批处理demopackage csdn.xdoctorx;import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.api.java.operators.DataSource;imp...
2020-06-27 19:52:00 916
原创 Flink系列:解决Specifying keys via field positions is only valid for tuple data types
Exception in thread "main" org.apache.flink.api.common.InvalidProgramException: Specifying keys via field positions is only valid for tuple data types. Type: GenericType<scala.Tuple2> at org.apache.flink.api.common.operators.Keys$ExpressionKe...
2020-06-27 19:49:10 3111 2
原创 Maven系列:设置使用国内阿里云镜像方法
本地已经下载maven后 ( maven系列:最新下载地址、配置) ,要修改$Maven_HOME/conf/settings.xml文件,配置mirrors的子节点,添加如下mirror<mirror> <id>nexus-aliyun</id> <mirrorOf>*</mirrorOf> <name>Nexus aliyun</name> ...
2020-06-27 12:55:07 1966
原创 Flink系列:典型应用场景
实时ETL灵活SQL API,支持对数据进行实时清洗、归并、结构化处理实时监控实时分析系统和用户行为,及时发现风系统风险在线电商实时分析各类交易数据,及时调整系统策略、内容投放、APP推送等。实时报表实时采集、加工流式数据,监控各类指标数据...
2020-06-27 12:36:27 1228
原创 Flink系列:高吞吐和低延迟
Flink以固定的缓存块为单位进行网络数据传输,用户可以通过设 置缓存块超时值指定缓存块的传输时机。如果缓存块的超时值为0,则系统可以获得最低的处理延迟;如果缓存块的超时值为无限大,则系统可以获得最高的吞吐量...
2020-06-27 12:20:48 1827
原创 Flink系列:检查点如何保证exactly-once
检查点检查点的作用是有Flink自动生产的,当出现故障时,将系统重置为正确状态。Flink系列:有状态、无状态区别
2020-06-27 00:24:27 488
原创 MAC系列:蓝牙键盘连接提示:输入magic的pin
在电脑上,输入任意一个数字,点击连接然后在被连接的mac键盘上输入上面的数字,Enter。即可。
2020-06-26 14:58:34 6983
原创 Flink系列:Window窗口的概念、使用方法
概念以时间为单位把事件流分割为一批批任务,称为窗口。运用以固定时间分组改为根据生产数据的时间段分组,只需在Flink程序中修改对窗口的定义即可。扩展Flink系列:批处理和流处理(DataSet和DataStream)区别...
2020-06-26 11:57:01 687
原创 Windows系列:只能浏览器chrome / IE上网,其他的软件都不能联网
》》Windows系列:解决win10 cannot initialize winsock library !
2020-06-19 14:52:30 1907
原创 ES系列:Elasticsearch index read-only 问题解决办法(ES磁盘满或满扩容之后处理)
现象ES 容器的 json.log 日志文件中不断有大量日志,主要是:[FORBIDDEN/12/indexread-only/ allow delete (api)]原因没有及时清理旧的索引数据,导致磁盘空间不足,进而触发了 ES 自身基于磁盘的分片策略。索引中read_only_allow_delete 值为 true ,需要将其设置为 false 来解除索引只读限制。PUT _settings { "index":{ "blocks":{...
2020-06-18 20:17:21 5994
原创 JAVA系列:hashCode和identityHashCode的区别
identityHashCode返回对象的原始hashCode(根据对象物理内存地址产生的hash值),而不管对象是否重写了hashCode方法。hashCode可以被重写并返回重写后的值
2020-06-18 20:12:10 276
原创 监控系统技术栈
数据采集:zabbix、filebeat、promethues数据传输:flink、logstash数据存储:elastic、kafka、mysql前端展示:Grafana、kibana、自研、告警通知:邮件、微信、电话
2020-06-18 20:09:45 597
原创 Idea系列:解决 idea lombok cannot resolve method
lombok插件版本不兼容,需要找到对应版本重新安装lombok和Idea对应关系
2020-06-18 20:03:41 5858
原创 Idea系列:解决Intellij idea控制台中文乱码
解决方法:Setting->maven->runnerVMoptions: -Dfile.encoding=GB2312
2020-06-18 19:57:15 365
原创 K8S系列:port nodePort targetPort区别
portservice暴露在cluster ip上的端口,<cluster ip>:port是提供给集群内部客户访问service的入口nodePort<nodeIP>:nodePort 是提供给集群外部客户访问service的入口port和nodePort都是service的端口,前者暴露给集群内客户访问服务,后者暴露给集群外客户访问服务。targetPortpod上的端口,从port和nodePort上到来的数据最终经过kube...
2020-06-14 22:38:37 557
原创 K8S系列:Service的使用方法
问题通过Deployment管理Pod,随时可能对Pod进行扩缩容,这时候Pod的IP地址是变化的。而Service有固定的IP,不管Pod怎么创建和销毁,都可以通过Service的IP进行访问。所以把相同或者具有关联的Pod,打上Label,组成Service。编写yamlapiVersion: apps/v1kind: Deploymentmetadata: name: whoami-deployment labels: app: whoamis...
2020-06-14 18:22:24 1110
原创 K8S系列:集群网络通信之Pod相互访问
同一个Node之间Pod的相互访问不同Node之间Pod的相互访问编辑yamlvinginx_pod.yamlapiVersion: v1kind: Podmetadata: name: nginx-pod labels: app: nginxspec: containers: - name: nginx-container image: nginx ports: - containerPort: 8028vibus...
2020-06-14 17:55:58 4630
原创 K8S系列:namespace yaml理解
目录查看namespace列表查看指定namespace创建namespace使用namespacenamespace 主要用于资源的隔离查看namespace列表查看指定namespacekubectl get pods 默认defaultkubectl get pods -n kube-system创建namespace编写yamlmyns-namespace.yamlapiVersion: v1k...
2020-06-14 16:25:25 1669
原创 K8S系列:labe 理解
目录基本用法关联用法查看pod的label标签label:用于给一些资源打上标签基本用法apiVersion: v1kind: Podmetadata: name: nginx-pod labels: app: nginx名称为nginx-pod的pod,有一个label,key为app,value为nginx关联用法selectapiVersion: apps/v1kind: Deploymentmetadata: nam.
2020-06-14 16:13:27 345
elasticsearch-7.7.0-2020-linux-x86_64.tar.gz.zip
2020-05-15
alexanderzobnin-grafana-zabbix-v3.11.0-1-g52f24ec.zip
2020-03-28
node_exporter-1.0.0-rc.0.linux-amd64.tar.gz
2020-03-28
prometheus-2.17.1.linux-amd64.tar.gz
2020-03-28
zabbix snmp redhat7/centos7 离线安装包
2020-02-26
redhat7、centos7系统,zabbix Server 离线安装包
2020-02-19
redhat7、centos7 zabbix proxy安装包
2020-02-19
redhat6、centod6系统zabbix agent安装包 zabbix-agent-4.2.4-1.el6.x86_64.rpm
2020-02-19
MemoryAnalyzer-1.10.0.20200225-win32.win32.x86_64版本.zip
2020-09-27
MemoryAnalyzer-1.10.0.20200225-linux.gtk.x86_64.zip
2020-09-27
elasticsearch-7.8.0-linux-x86_64-2020.tar.zip
2020-07-13
prometheus-2.19.2.linux-amd64.tar.gz
2020-07-13
xampp-windows-x64-7.4.5-0-VC15-installer.zip
2020-06-03
Git-2.26.2-64-bit.windows.zip(官方开源软件windows 64版本)
2020-05-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人