自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ZLin的博客

http://write.blog.csdn.net/configure/column

  • 博客(30)
  • 收藏
  • 关注

原创 《Flink学习笔记》——第十二章 Flink CEP

这个接口需要实现一个 processTimedOutMatch()方法,可以将超时的、已检测到的部分匹配事件放在一个 Map 中,作为方法的第一个参数;它们构成了一个新的“复杂事件流”,流中的数据就变成了一组一组的复杂事件,每个数据都包含了一个圆形和一个三角形。具体的处理过程是,把事件流中的一个个简单事件,通过一定的规则匹配组合起来,这就是“复杂事件”;在循环模式中,对同样特征的事件可以匹配多次。比如我们定义个体模式为“匹配形状为三角形的事件”,再让它循环多次,就变成了“匹配连续多个三角形的事件”。

2023-08-31 18:30:14 1027

原创 《Flink学习笔记》——第十一章 Flink Table API和 Flink SQL

Table API和SQL是最上层的API,在Flink中这两种API被集成在一起,SQL执行的对象也是Flink中的表(Table),所以我们一般会认为它们是一体的。Flink是批流统一的处理框架,无论是批处理(DataSet API)还是流处理(DataStream API),在上层应用中都可以直接使用Table API或者SQL来实现;这两种API对于一张表执行相同的查询操作,得到的结果是完全一样的。需要说明的是,Table API和SQL最初并不完善,在Flink 1.9版本合并阿里巴巴内部版

2023-08-31 18:27:18 1053

原创 《Flink学习笔记》——第十章 容错机制

既然是端到端的exactly-once,我们依然可以从三个组件的角度来进行分析:(1)Flink内部Flink内部可以通过检查点机制保证状态和处理结果的exactly-once语义。(2)输入端输入数据源端的Kafka可以对数据进行持久化保存,并可以重置偏移量(offset)。所以我们可以在Source任务(FlinkKafkaConsumer)中将当前读取的偏移量保存为算子状态,写入到检查点中;

2023-08-30 10:27:33 791

原创 《Flink学习笔记》——第九章 多流转换

无论是基本的简单转换和聚合,还是基于窗口的计算,我们都是针对一条流上的数据进行处理的。而在实际应用中,可能需要将不同来源的数据连接合并在一起处理,也有可能需要将一条流拆分开,所以经常会有对多条流进行处理的场景。

2023-08-28 22:56:46 1394

原创 《Flink学习笔记》——第八章 状态管理

在Flink中,算子任务可以分为无状态和有状态两种情况。**无状态的算子:**每个事件不依赖其它数据,自己处理完就输出,也不需要依赖中间结果。例如:打印操作,每个数据只需要它本身就可以完成。**有状态的算子:**事件需要依赖中间或者外其它数据才能完成计算。比如计算累加和,我们需要记录当前的和是多少,等下一个数据来的时候我们直接将当前和加上该数更新当前累加和。所以我们需要保存当前和。而这里的中间结果和其它数据就是“状态”。

2023-08-28 22:29:16 1154

原创 《Flink学习笔记》——第七章 处理函数

为了让代码有更强大的表现力和易用性,Flink 本身提供了多层 API在更底层,我们可以不定义任何具体的算子(比如 map,filter,或者 window),而只是提炼出一个统一的“处理”(process)操作——它是所有转换算子的一个概括性的表达,可以自定义处理逻辑,所以这一层接口就被叫作“处理函数”(process function)。是整个DataStream API的基础。

2023-08-28 22:27:58 1152

原创 《Flink学习笔记》——第六章 Flink的时间和窗口

只通过事件时间来判断是否一个窗口的数据已经到齐是不行的。我们可以基于事件时间去自定义一个时钟,用来表示当前时间的进展。例如:我们定义一个时钟,这个时钟的时间逻辑是比事件时间晚5分钟。当一个数据过来,它的事件时间是9:00:00,这时窗口会认为是8:55:00。这时,窗口认为还没有到9点,所以8——9点的窗口统计还不到时间。会再等等,等收到大于或等于9:05:00的数据时才会进行统计。这样如果有事件时间为8:58:00的数据在9:04:00才到来时,也能够被统计到8——9点的窗口中。

2023-08-28 22:26:04 1250

原创 《Flink学习笔记》——第五章 DataStream API

如果遇到特殊情况, 我们想要读取的数据源来自某个外部系统,而 flink 既没有预实现的方法、也没有提供连接器, 又该怎么办呢?那就只好自定义实现 SourceFunction 了。接下来我们创建一个自定义的数据源,实现 SourceFunction 接口。主要重写两个关键方法:run()和 cancel()。run()方法:使用运行时上下文对象(SourceContext)向下游发送数据;cancel()方法:通过标识位控制退出循环,来达到中断数据源的效果。自定义一个数据源ClickSource。

2023-08-26 23:25:31 443

原创 《Flink学习笔记》——第四章 Flink运行时架构

flink

2023-08-26 22:02:54 490

原创 《Flink学习笔记》——第三章 Flink的部署模式

flink

2023-08-26 21:59:56 1327

原创 《Flink学习笔记》——第二章 Flink的安装和启动、以及应用开发和提交

Flink

2023-08-26 21:56:24 1859

原创 《Flink学习笔记》——第一章 概念及背景

​ 什么是批处理和流处理,然后由传统数据处理架构为背景引出什么是有状态的流处理,为什么需要流处理,而什么又是有状态的流处理。进而再讲解流处理的发展和演变。而Flink作为新一代的流处理器,它有什么优势?它的相关背景及概念和特性又是什么?有哪些应用场景?

2023-08-26 21:44:31 784

原创 Flink CDC学习笔记

​ CDC (Change Data Capture 变更数据获取)的简称。核心思想就是,检测并获取数据库的变动(增删查改),将这些变更按发生的顺序记录下来,写入到消息中间件以供其它服务进行订阅及消费。自定义序列化器 CustomDeserializationSchemaimport com/**// before数据 result . put("before" , getData("before" , value));

2023-08-26 17:53:57 1229

原创 Typora使用

Typora自定义主题、常用编辑技巧、图床的使用、发布博客。

2022-06-05 23:12:04 938 1

原创 CDH通过parcels安装组件,激活时卡住,取消激活

取消激活命令:curl -u admin:admin -X POST http://xxxx.xxx.xx.xx:7180/api/v19/clusters/cluster/parcels/products/APACHE_PHOENIX/versions/4.14.0-cdh5.14.2.p0.3/commands/deactivateadmin:admin——CDH用户名和密码http://xxxx.xxx.xx.xx:7180——CDH UI地址APACHE_PHOENIX——正在...

2021-12-27 09:46:15 2163

原创 通过sqoop将mysql表导入到hive表(Python实现)

# -*- coding: utf-8 -*-from datetime import datetimeimport paramikoimport reclass ShellHandler: def __init__(self, host, user, psw): self.ssh = paramiko.SSHClient() self.ssh.set_missing_host_key_policy(paramiko.AutoAddPolicy()).

2021-12-25 10:21:44 1660

原创 Hive常用命令

1.修改字段类型alter table 表名 change column 字段名 字段名 目标的字段类型#例子:将表test中的字段a的类型转换为bigintalter table test change column a a bigint2.删除库及库中所有表(数据也会删除)DROP DATABASE IF EXISTS 数据库名 CASCADE;3.创建数据库# 语法CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_n

2021-12-25 10:06:09 1098

原创 datax从mysql导入表数据到hive表,字段值为NULL,问题分析

从mysql导入表数据到hive表,字段值为NULL,有可能由以下原因造成:1.建表分隔符和导入时的分隔符不一致# 修改分隔符命令alter table att_new set serdeproperties('serialization.format'='\t');#或者修改导入命令中的分隔符2.字段的数据类型不一致# 修改字段数据类型命令alter table 表名 change column 字段名 字段名 目标的字段类型#例子:将表test中的字段a的类型转换为b

2021-12-23 17:48:25 3192

原创 DataGrip连接hive

报错: org.apache.hive.org.apache.thrift.TApplicationException: Required field 'client_protocol' is unset! Struct:TOpenSessionReq(client_protocol:null, configuration:{set:hiveconf:hive.server2.thrift.resultset.default.fetch.size=1000, use:database=default}).

2021-12-22 21:32:59 3576 2

原创 MySQL学习笔记

MySQL学习笔记目录一、数据库的相关概念二、初识MySQLMySQL产品的介绍 MySQL产品的安装 ★MySQL服务的启动和停止 ★MySQL服务的登录和退出 ★MySQL的常见命令和语法规范五、DQL语言的学习 ★基础查询 ★条件查询 ★ 排序查询 ★ 常见函数 ★分组函数 ★分组查询 ★ 连接查询 ★ 子查询 √分页查询

2021-06-16 00:20:02 607

原创 神经网络

1.前言 1.当特征太多时,无论线性回归还是逻辑回归计算的负荷都会非常大。 2.使用非线性的多项式往往能够帮我们建立更好的分类模型。然而特征组合数量却非常惊人,例如:2500个特征,仅两两组合就有2500^2/2(近300万个)。普通逻辑回归不能有效处理这么多特征。 这时候我们需要神经网络。2.神经网络简介(可直接参考:https://blog.csd...

2020-06-28 11:50:20 1249

原创 在Microsoft Word中插入代码块

步骤:1.打开网页http://www.planetb.ca/syntax-highlight-word将想要插入的代码复制到code框里面,选择相应的语言,点击Show HighLighted,生成新的代码块。2. 复制网页新生成的代码块:3. 将复制的代码块,粘贴到word中...

2020-03-16 18:09:00 5411 1

原创 逻辑回归

1、逻辑回归简介 逻辑回归也叫对数几率回归,理解了线性回归,逻辑回归理解起来就容易多了。逻辑回归虽然名字叫做回归,但实际上却是一种分类学习方法。线性回归完成的是回归拟合任务,而对于分类任务,我们同样需要一条线,但不是去拟合每个数据点,而是把不同类别的样本区分开来。 2、假设...

2020-02-17 23:40:15 1145

原创 基础知识累积

1、统计学习方法分类 1)监督学习 2)非监督学习 3)半监督学习 4)强化学习2、统计学习三要素/三步骤 1)模型:确定模型的假设空间 2)策略:确定模型选择的准则 3)算法:求解并选择最优模型3、主要学习问题分类 1)分类问题 输出值为离散值(如预测明天的天气:【晴天、阴天、雨天】),若只有两个类别则为...

2020-02-14 20:18:01 393

原创 线性回归

1、简介线性回归是一个回归模型,输出值为连续值2、一元线性回归我们假设以房屋交易为例,这里我们只有一个自变量(房屋的大小,x),还有一个因变量(房屋的价格,y),那么我们要做的就是根据已知的样本数据(x,y)发现一个规则(也可以称为映射),之后如果有人问你他的房子值多少钱时,你就可以依据他房子的大小根据我们发现的规则很容易的给出他房子的近似价格。具体如下: ...

2020-02-14 20:17:17 532

原创 Hive作业——返回每一门课程和对应的最高分的学生姓名

作业:返回每一门课程和对应的最高分的学生姓名t_score_data.txtzhangsan math:90,english:60lisi chinese:80,math:66,english:77wangwu chinese:66,math:55,english:80返回每一门课程和对于的最高分的学生姓名chinese lisimath zhangs...

2019-08-01 16:52:26 1597

原创 连续子串最大和——python实现

简介:连续子串最大和,指某个连续的子串里的所有元素相加,和最大的那个。例如:[-4, 11,-2, 13,-7,-3,12] 的连续子串最大和为 24,这个子串就是[11,-2, 13,-7,-3,12]思路:记前面n个数的和为cur_sum,当cur_sum +(第n+1个数)的和比第n+1个数它本身还小的话,即前n+1项和比第n+1个数还小,那cur_sum就重新从第n+1个数开始累...

2019-07-16 16:49:38 2500

原创 求LCS(最长公共子序列)长度并输出所有LCS——python实现

简介:LCS是Longest Common Subsequence的缩写,即最长公共子序列。它并不要求连续,且最长公共子序列不唯一。例如:'ABCBDAB' 和'BDCABA'的最长公共子序列有以下几个:'ABCBDAB''BDCABA'lcs1:BCAB'ABCBDAB''BDCABA'lcs2:BCBA'ABCBDAB''BDCABA'lcs3:BDAB获取最长...

2019-07-16 15:58:47 1953

原创 使用两次MapReduce实现返回共同好友

题目:使用两次MR实现返回人和人两两间的共同好友输入数据:A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,I......表示A有好友B,C,D,F,E,O. B有好友A,C,E,K. C有好友F,A,D,I输出结果:A,B: CEA,C: DF......表示A,B的共同好友有:C和E;A,C的共同好友有:D和F ;......;若没有共同好友则...

2019-07-14 20:43:21 638

原创 前瞻性队列、回顾性队列、病例对照研究

一、前瞻性队列研究研究对象的确定与分组根据研究开始时的实际情况,研究的结局需随访观察一段时间才能得到,这种研究可信度高、偏倚少,但费时、费人力、物力、财力。二、回顾性队列研究回顾性队列研究的研究对象是根据其在过去某时点的特征或暴露情况而入选并分组的,然后从已有的记录中追溯从那时开始到其后某一时点或直到研究当时为止这一期间内,每一成员的死亡或发病情况这工作,性质上相当于从过去某时点开

2017-02-24 18:31:27 41673

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除