自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (1)
  • 收藏
  • 关注

原创 linux笔记

2019-07-31 23:29:54 92

原创 掌握Spark机器学习库 02 --- Mllib 与 ml

一,Mllib 与 ml是spark的两个机器学习库二者区别:1,Mllib 是采用RDDml使用DataFrame2,spark官方是希望使用ml替代掉Mllib二,Mllib使用场景1,海量数据的分析跟挖掘 --比如房价预测2,推荐系统,模型训练3,sparkStreaming+Mllib三,矩阵与向量1,矩阵的基本运算...

2019-07-31 23:08:53 376

原创 掌握Spark机器学习库 01 --- 数据类型

一,Mllib的数据格式1,本地向量本地向量是存储在本地节点上的,其基本数据类型是Vector,其有两个子集,分别是密集的与稀疏的,我们一般使用Vectors工厂类来实现。如: Vectors.dese(1.0,2.0,3.0) Vectors.sparse(3,(0,1),(1,2),(2,3))2,标签数据valpos=LabeledPoint(1....

2019-07-31 22:29:17 204

原创 spark机器学习进阶实战 笔记02

1

2019-07-31 17:18:01 334

原创 CountDownLatch 用法案例

主线程等待多线程子线程执行完毕:还可以优化:这里可以优化成线程池package com.dianyou.filter;import java.util.concurrent.CountDownLatch;/** * //TODO 写注释 * * @author: zhw * @since: 2019/3/13 15:47 */public class Demo...

2019-07-31 15:02:46 193

原创 Flink 自定义触发器

trigger接口有五个方法允许trigger对不同的事件做出反应:onElement():进入窗口的每个元素都会调用该方法。onEventTime():事件时间timer触发的时候被调用。onProcessingTime():处理时间timer触发的时候会被调用。onMerge():有状态的触发器相关,并在它们相应的窗口合并时合并两个触发器的状态,例如使用会话窗口。cl...

2019-07-31 14:45:54 2333 1

翻译 spark机器学习进阶实战 笔记

第二章1,文本特征处理(1)分词 demopackage com.dianyou.mllib.secondPageimport org.apache.spark.ml.feature.{RegexTokenizer, Tokenizer}import org.apache...

2019-07-30 18:38:53 615

原创 Flink cep notFllowedBy 用法案例

notFllowedBy 意思是只保留第一个条件最后的一条数据跟第二个条件去匹配notNext() notFollowedBy() 后面的模式不命中(严格/非严格) 下图代码说明的就是,匹配最后一个 name = '2',,接下来遇到 '0' 就是匹配结果,所有会有2个结果(Event(A,a3,2) ,Event(A,a6,0))(-Event(A,a8,2),...

2019-07-30 16:40:18 1044

原创 谷歌引擎表达式aviator简单demo

String str = "{'A':'北京市','urlTimestamp':'1562747858.662','urlTime':'[10/Jul/2019:16:37:38 +0800]','deviceId':'58553C9A0974CFDB25','province':'北京','appKey':'432b6d2931efd34037fe282d','phoneType':'1',...

2019-07-29 10:25:58 1091

原创 Spark ML机器学习实战笔记

11

2019-07-25 23:42:58 508

翻译 Metrics 和监控

1,Metrics 如何使用系统内置Metrics:定期轮询去各个组件拉取信息,拉取不一定是实时的,是定期10秒拉取一次,所以web端看到的不一定是最新实时的,可能数据不同步。...

2019-07-25 18:24:30 312

翻译 Flink state 调优跟注意点

1,不要使用长list,是在业务需求,可以使用数组好一些2,下图是3个并发变成2个并发,建议少用3,clear不能完全清空,下面是完整的方法。打开监控的对性能有损耗:配置TTL,自动清理过期state:RawState 一般在timer里面用的多,其余地方用不到:如果Job遇到taskManager连接不上,大量GC,或者是代码里...

2019-07-25 16:56:53 1085 1

原创 B站2019年最新机器学习笔记01

1,下载python 3.x (我们选择3.6.3版本)https://www.python.org/downloads/python常用的包:后面2个一般做机器学习的.........工作中大部分人做的事情就是用程序实现算法......2,我们要安装对应的python库如下图:查看已经安装过的包:或者 pip list3,使用py...

2019-07-25 15:59:14 148

转载 Flink 源码入门02

事实上,flink总共提供了三种图的抽象,我们前面已经提到了StreamGraph和JobGraph,还有一种是ExecutionGraph,是用于调度的基本数据结构。上面这张图清晰的给出了flink各个图的工作原理和转换过程。其中最后一个物理执行图并非flink的数据结构,而是程序开始执行后,各个task分布在不同的节点上,所形成的物理上的关系表示。从JobGraph的图里可以看到,数...

2019-07-22 09:17:42 336

转载 Flink 源码入门01

1,下载官网代码,在本地编译,成功之后,可以看到分为很多个包,我们首先入门得进简单一点的,进入example案例里面2,我们找到经典代码:package org.apache.flink.streaming.examples.wordcount;public class WordCount { // *******************************...

2019-07-19 18:27:29 258

原创 一个简单的Flink程序开发代码

重点主要是使用State,模拟实现匹配场景功能 ,想了解更多完整代码,可以留言package com.coder.flink.core.stormToFlink;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONArray;import com.alibaba.fastjson.JSONObject;...

2019-07-19 12:25:14 660 1

转载 转载 Flink SQL join INTERVAL 代码案例

1,下面的案例就是 在下单之后,在一个小时之内付款的数据才是有效数据,使用 JOIN INTERVAL 来实现,这可是知识盲点,不过真的是好用。package com.coder.flink.core.table_sql.sql_functionimport java.sql.Timestampimport org.apache.flink.api.scala._import ...

2019-07-19 12:23:08 1940

转载 Flink CEP 空气质量监控案例

转载至 about 云http://www.aboutyun.com/thread-27487-1-1.html实际业务场景代码会比这个复制,但是类似............package wang.datahub.cep;import org.apache.flink.api.java.utils.ParameterTool;import org.apache.flink....

2019-07-19 09:56:47 435

转载 Flink 水印简单理解

看下图: 为啥只有一个触发, WaterMark 时间 >= window结束时间 第一条日志 时间16:25:24 正好在 window [16:25:20 16:25:25) 里面,所以触发了,这里设置的水印延迟时间为10s 。最后一条数据为什么没有触发,因为这个时候window [16:25:2516:25:30),水印时间已经来到; 16:25:27 ,到达了第二条...

2019-07-17 15:06:29 1277

转载 转载 flume自定义拦截器代码实现

转载地址:https://blog.csdn.net/u012443641/article/details/807572291. 自定义拦截器实现说明1. 实现interceptor接口,并实现其方法,接口完全限定名为:org.apache.flume.interceptor.Interceptor;2. 自定义拦截器内部添加静态内部类,实现Builder接口,并实现其...

2019-07-16 12:03:40 291

原创 Flink 广播流 跟 MapState 案例,方便大家的理解

package com.coder.flink.core.aaa_Use_demo;import com.alibaba.fastjson.JSON;import com.alibaba.fastjson.JSONObject;import org.apache.flink.api.common.state.*;import org.apache.flink.api.common....

2019-07-16 11:20:14 5660

转载 自定义DateTimeBucket

转载自:https://blog.csdn.net/u010259977/article/details/88683503Flink的StreamingFileSink自定义DateTimeBucket用flink消费kafka内容,通过清洗、转换、过滤后,要sink到parquet文件,需要按照事件的event进行分区生产需要写入的文件夹,如event1的发生时间在2018-03-...

2019-07-15 15:23:04 941

转载 广播流实现---转(主要这个案例挺好的)

Flink使用广播实现配置动态更新其余参考案例:(可能更接近于实际业务场景)https://mp.weixin.qq.com/s?__biz=Mzg3ODI1NzQ0MA==&mid=2247483655&idx=1&sn=e42be0461899397f121cfaf78f717d94&chksm=cf173548f860bc5eb204d7cc59aa...

2019-07-15 09:51:25 360

原创 GitHub 很好的案例代码

1,Flink 流算子的案例:https://github.com/opensourceteams/flink-maven-scala/tree/master/src/main/scala/com/opensourceteams/module/bigdata/flink/example/datastream/operator2,Flink的一些东西:https://github.com...

2019-07-10 18:27:03 362

转载 kafka-flink-hbase

代码地址:https://github.com/duhanmin/kafka-flink-hbase/tree/master/src/main/java/com/dupackage com.du;import java.io.IOException;import java.text.SimpleDateFormat;import java.util.Date;import...

2019-07-10 18:24:25 396

转载 Flink 源码系列 01

慢慢写~

2019-07-10 14:38:16 114

转载 Flink 将kafka数据写入 HDFS(parquet)

参考:https://www.cnblogs.com/smartloli/p/10426728.htmlhttps://www.wandouip.com/t5i28638/

2019-07-09 20:44:30 2400

原创 Flink原理实战每日一篇12 ---SQL 自定义函数

一,自定义函数需要通过TableEnvironment 进行注册之后才可以使用,函数注册通过 tableEnv.registerFuntion()方法完成内置函数 官网API地址:https://ci.apache.org/projects/flink/flink-docs-release-1.8/dev/table/functions.html一,自定义函数分为三种...

2019-07-09 20:42:10 1019

原创 Apache Nifi入门篇03--Nifi 基础案例

再试试其他的案例:https://mp.weixin.qq.com/s/m2eyFaG_j0S8sgPeNUfdNAhttps://mp.weixin.qq.com/s/EJMaFG-f2KadFw7kLHsvlQ讲真,Nifi用起来体验感觉真不错~~~快速找到文档链接................对了,备注一下,Nifi的进程名称,免得下次挂了我们...

2019-07-04 14:42:54 1502

原创 Apache Nifi入门篇02 --安装Nifi

首先说一下~~~学新东西我以前是一直找视频看,现在的话先搜索类似文档,有个初步的认知之后,再去看官网,然后如果有书的话更好,书是个好东西,没有的话也没关系,多写,多实践。官网地址:http://nifi.apache.org/文档:http://nifi.apache.org/docs.html一,先安装一个简单的运行起来 部署~在95 96 97 三个节点部署 ...

2019-07-04 12:00:49 631

原创 Flink原理实战每日一篇11 ---SQL实例学习

从这里开始讲Flink SQL听说Flink1.9发布之后 Blink的SQL会并入到Flink,那时候SQL会更强大,这个时候不到打好基础怎么行呢。。。。。。。。一,Flink SQL使用最简单的案例使用:import org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apach...

2019-07-03 23:48:41 1629

原创 Flink 项目案例实操01

项目详情:https://yq.aliyun.com/articles/691495基于实时计算,您可以轻松完成实时欺诈检测系统。 实时欺诈检测系统能够及时发现用户高危行为并采取措施,降低损失。1,系统架构:实时欺诈检测(风控)系统流程如下:用户的行为经由App上报或Web日志记录下来,发送到一个消息队列里去。 实时计算订阅消息队列,过滤出感兴趣的行为,比如:购买、领券、浏览...

2019-07-03 22:19:27 864

原创 Flink原理实战每日一篇07

...................上一章主要是为了早点结束,然后开始下面一个非常重要的章节,这个章节不理解清楚,就对Flink的一些核心思想无法理解跟掌握。flink 状态管理和容错1,有状态计算 在Flink里面,有状态计算可以说是最重要的特性之一,刚好今天还有个朋友问我状态是保存在什么地方,是一致存在还是怎么样,下面要讲的就很清楚了。如下图:咳咳,回答上面的问...

2019-07-03 22:19:20 254

原创 Flink CEP基础学习与使用04----实际业务场景开发案例demo

目标:针对日志,做场景匹配demo,这个demo先发出来吧,感觉乱七八糟的,等过一段时间再思考一下怎么写,这个写的太乱了import com.alibaba.fastjson.{JSON, JSONObject}import org.apache.flink.api.common.serialization.SimpleStringSchemaimport org.apache.flin...

2019-07-02 17:41:23 1321

原创 Flink原理实战每日一篇10

继续讲Flink Table ..........................这一篇就有点乱七八糟了,都是写案例,说实话,在实际开发中都是Flink SQL,在这里我们还是手写API 然后过了,把重心放在SQL上面。。。。下面全是手写案例 :1)object Over_window { def main(args: Array[String]): Unit = { ...

2019-07-01 23:52:26 539

原创 Flink CEP基础学习与使用01

一,学习CEP的目的,说白了是因为业务需要,需要更深入的理解,并使用到更复杂的场景,先说一下 CEP是什么: 复杂事件处理(CEP)是一种基于流处理的技术,将系统数据看做不同类型的事件,通过分析事件之间的关系,建立不同的事件关系序列库,并利用 过滤,关联,聚合等技术,最终由简单事件产生高级事件,并通过模式规则的方式对重要信息进行跟踪和分析,从数据中发掘有价值的信息。 目前主要...

2019-07-01 10:30:00 638

数据治理及数据资产化创新实践-京东.pdf

数据治理及数据资产化创新实践-京东

2021-10-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除