自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

devcy的博客

原创 flink 实现CommonSink，自动生成sql，自动匹配字段值

团队的业务需求，flink实时计算任务在sink polarDb时，每个任务都需要编写实体类sink代码，重复工作浪费时间。观察之后发现代码可以实现通用sink，代码有重合。通过泛型传入实体对象，通过反射获取字段名和字段值。原来的sink代码，如果实体类字段非常多的话，可能要重复编写几十上百行，复杂枯燥且容易出错。public class EventTopicSink extends RichSinkFunction<EventTopic> { PreparedStatement

2021-04-22 18:03:46 729 1

原创答对了这道题，我拿到了阿里30K的offer——剑指 Offer 32 - II. 从上到下打印二叉树 II

同学去阿里面试，项目问完了，面试官感觉一般，出了下面这道题。往往面试官觉得项目一般，没有太多亮点的时候，就会考察应聘者的基础知识是否扎实，基础知识扎实的话，也能进大厂；一般来讲，项目和基础二者必须有其一，才有进大厂的可能。这位同学思考了一会儿，顺利的做除了这道题，并且给出了解答，面试官很满意，顺利的拿到了offer。大家好好看下下面这道题。请实现一个函数按照之字形顺序打印二叉树，即第一行按照从左到右的顺序打印，第二层按照从右到左的顺序打印，第三行再按照从左到右的顺序打印，其他行以此类推。例如: 给定

2021-03-24 15:19:33 228

原创 BAT常见面试算法题：在排序数组中查找数字

统计一个数字在排序数组中出现的次数。示例 1:输入: nums = [5,7,7,8,8,10], target = 8输出: 2示例 2:输入: nums = [5,7,7,8,8,10], target = 6输出: 0 限制：0 <= 数组长度 <= 50000这道题看似非常简单，但是在面试中经常出现。这种简单的题目，面试官往往考察的不是是否能解答出来，而是对时间复杂度和空间复杂度有着更高的要求。解法一很容易想到的解法，遍历数组，统计出现次数。

2021-03-22 16:30:38 328

原创 Exceeded checkpoint tolerable failure threshould【记一次flink上线异常】

最近完成一个业务需求，flink程序上线之后，跑了不到一分钟就挂了，查看日志，报错如下：org.apache.flink.util.FlinkRuntimeException: Exceeded checkpoint tolerable failure threshold. at org.apache.flink.runtime....明显，checkpoint超时了，于是，我下意识地去检查checkpoint的设置，代码中的设置如下： // 每 ** ms 开始一

2021-03-09 10:59:39 16533 6

原创 Exception in thread “main“ org.apache.flink.table.api.SqlParserException: SQL parse failed. Encounte

Exception in thread "main" org.apache.flink.table.api.SqlParserException: SQL parse failed. Encountered "table" at line 1, column 308.Was expecting one of: "CONSTRAINT" ... "PRIMARY" ... "UNIQUE" ... "WATERMARK" ... <BRACKET_QUOTED...

2020-12-29 14:18:14 5500 5

原创 maven下载安装

maven下载https://archive.apache.org/dist/maven/maven-3/3.5.2/binaries/2. 更改

2020-05-13 16:33:38 222

原创 idea maven No implementation for org.apache.maven.model.path.PathTranslator was bound.

导入项目报错打开IDEA日志

2020-05-13 16:14:52 610

原创分组topn

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入select...

2020-04-11 18:28:44 328

原创数据倾斜

3.自定义分区,这需要用户自己继承partition类,指定分区策略,这种方式效果比较显著。4.重新设计key,有一种方案是在map阶段时给key加上一个随机数,有了随机数的key就不会被大量的分配到同一节点(小几率),待到reduce后再把随机数去掉即可。5.使用combinner合并,combinner是在map阶段,reduce之前的一个中间阶段,在这个阶段可以选择性的把大量的相同key...

2020-04-02 10:27:40 192

原创数据仓库

https://www.cnblogs.com/itboys/p/10592871.html

2020-03-31 16:09:31 168

原创 Flink 自定义UDF处理异常数据

Flink 自定义UDF处理异常数据

2020-03-23 20:19:46 877

原创 kafka

Kafka 高性能吞吐揭秘Kafka重度依赖底层操作系统提供的PageCache功能。当上层有写操作时，操作系统只是将数据写入PageCache，同时标记Page属性为Dirty。当读操作发生时，先从PageCache中查找，如果发生缺页才进行磁盘调度，最终返回需要的数据。实际上PageCache是把尽可能多的空闲内存都当做了磁盘缓存来使用。同时如果有其他进程申请内存，回收PageCache的代...

2020-03-22 01:28:28 125

原创 Todo

ES索引切片

2020-03-20 16:04:20 149

原创流量异常检测

https://mp.weixin.qq.com/s/9h-hOt630W6k077Rupc9CA预测移动平均算法使用当前窗口内w个数据的均值作为窗口内最后一个点的预测值，即。线性回归的方法预测流量值对于窗口内n个数据点使用最小二乘法来最小化损失函数由于线性回归的损失函数是二次函数，所以异常点带来的影响被放大，导致拟合的结果偏离理想结果。由于线性回归的二次损失函数放大了异常点的影响，因...

2020-03-19 11:39:10 8372

原创 checkpoint

Exactly_Once 和 At_Least_Once 具体在底层实现大致相同，具体差异表现在 CheckpointBarrier 对齐方式的处理：如果是 Exactly_Once 模式，某个算子的 Task 有多个输入通道时，当其中一个输入通道收到 CheckpointBarrier 时，Flink Task 会阻塞该通道，其不会处理该通道后续数据，但是会将这些数据缓存起来，一旦完成了所有...

2020-03-19 10:54:53 161

原创 daguansummary

1.参赛指导1.1 背景这个比赛是文本分类比赛，比传统的短文本（300词）分类难，现在是长文本（3000词）分类。1.2 监督学习进行分类的基本过程（假设有一个学习模型f供你使用）原始数据（一段原始文本）→数据预处理（处理后的文本）→特征工程（Features）→输入（模型f）→输出（类别）数据预处理：表情、符号会影响后续的处理，所以去掉；特征工程：生成向量=feature；（是机器...

2020-03-16 14:56:04 138

原创 [转]我在阿里这两年

看到大佬伍翀的帖子，讲自己刚进阿里的状况，深有感触，大佬进社区学英语那段我看笑了。见贤思齐焉，加油。转载http://wuchong.me/blog/2017/07/16/two-years-in-alibaba/这两天，团队来了不少新人，有实习生也有刚毕业的大学生。看着他们稚气的面庞，文静而腼腆的样子，跟我两年前刚进公司的时候好像。今天内网提示我这是我在阿里的第732天，两周年快乐。突然觉...

2020-03-15 14:22:51 772

原创服务器返回常见状态码及意义

状态代码由三位数字组成，第一个数字定义了响应的类别，且有5种可能取值：1XX:指示信息–表示请求已接收，继续处理2XX:成功–表示请求已被成功接收、理解、接受3XX:重定向–要完成请求必须进行更进一步的操作4XX:客户端错误–请求有语法错误或请求无法实现5XX:服务器端错误–服务器未能实现合法的请求常见状态代码、状态描述、说明：200 OK //客户端请求成功400 Bad...

2020-03-01 18:19:27 1768

原创见贤思齐焉

见贤思齐焉今天本来是在码农网上看Flink 大神邱从贤 Apache Flink Time & Window 深度解析。看到一半看到了另外一位同龄人的分享，这位大哥拿到了多家公司的offer，最后选择Airbnb。看了这位大哥每天的plan，晚上工作到十一点回家还坚持锻炼和刷算法题，深深感觉自己的努力还不够。见贤思齐焉，要更加勤奋自律，成为一个领域的专家。附上这哥们儿的专栏和帖子：...

2020-03-01 16:36:58 376

原创 Linux中awk工具的使用

Linux中awk工具的使用

2020-02-27 00:21:27 150

原创 Redis基础

Redis基础Redis 是什么Redis 是开源，内存中的数据结构存储系统，它可以用作数据库、缓存和消息中间件。它支持多种类型的数据结构，如字符串strings，散列 hashes，列表 lists，集合 sets，有序集合 sorted sets 与范围查询， bitmaps， hyperloglogs 和地理空间（geospatial）索引半径查询。Redis 还内置...

2020-02-26 23:45:41 115

原创踏踏实实做技术

看了篇文章，年轻人想要成功还是要踏踏实实地积累，不要想着走捷径。有人说，其实踏实的学习成功也难，你学的其他人也会，很难形成壁垒。非也你不学，其他会，你什么都不会。2. 要壁垒干嘛？你又不是创业跟别人竞争，市场这么大，机会这么多，你不需要垄断，就有自己的一亩三分田就挺好。那些动不动说要无可替代，形成壁垒的人只不过在贩卖焦虑罢了这个世界几十亿，大城市动辄几千万人，真正无可替代的人能有几个？...

2020-02-26 22:58:16 341

原创加速python程序

加速python程序

2020-02-25 22:06:30 183

原创 Kafka 常见问题

1. Kafka 如何做到高吞吐、低延迟的呢？这里提下 Kafka 写数据的大致方式：先写操作系统的页缓存（Page Cache）,然后由操作系统自行决定何时刷到磁盘。因此 Kafka 达到高吞吐、低延迟的原因主要有以下 4 点：页缓存是在内存中分配的，所以消息写入的速度很快。Kafka 不必和底层的文件系统进行交互，所有繁琐的 I/O 操作都由操作系统来处理。Kafka 采用追加写的方...

2020-02-25 14:46:38 307

原创谈谈三种海量数据实时去重方案（w/ Flink）

谈谈三种海量数据实时去重方案（w/ Flink）借助Redis Bitmap实现简单的布隆过滤器

2020-02-25 02:53:36 993

原创 Apache Flink 1.10.0 重磅发布，新特性解读

Table API/SQL: 生产可用的 Hive 集成Flink 1.9 推出了预览版的 Hive 集成。该版本允许用户使用 SQL DDL 将 Flink 特有的元数据持久化到 Hive Metastore、调用 Hive 中定义的 UDF 以及读、写 Hive 中的表。Flink 1.10 进一步开发和完善了这一特性，带来了全面兼容 Hive 主要版本的生产可用的 Hive 集成。Bat...

2020-02-25 01:30:18 760

原创中国CDN市场厂商排名：阿里云稳居第一，腾讯云第三

中国CDN市场厂商排名：阿里云稳居第一，腾讯云第三日前，市场咨询机构计世资讯(CCW Research)发布《2018-2019年中国CDN市场发展报告》显示，阿里云以近31%的市场份额，成为中国CDN市场第一大厂商，腾讯云则以10.4%排在第三位。CDN（内容分发网络）通俗地讲，其主要功能是让在各个不同的地点的网络用户，都可以迅速访问到网站提供的内容，不会出现等待或者卡顿的情况。过去一年...

2020-02-25 00:26:37 15476

原创大数据分析之OLTP与OLAP的区别

业务类系统主要供基层人员使用，进行一线业务操作，通常被称为OLTP（On-Line Transaction Processing，联机事务处理）。数据分析的目标则是探索并挖掘数据价值，作为企业高层进行决策的参考，通常被称为OLAP（On-Line Analytical Processing，联机分析处理）。从功能角度来看，OLTP负责基本业务的正常运转，而业务数据积累时所产生的价值信息则被OL...

2020-02-25 00:24:40 517

原创 Zookeeper的选举机制原理

三个核心选举原则：（1）Zookeeper集群中只有超过半数以上的服务器启动，集群才能正常工作；（2）在集群正常工作之前，myid小的服务器给myid大的服务器投票，直到集群正常工作，选出Leader；（3）选出Leader之后，之前的服务器状态由Looking改变为Following，以后的服务器都是Follower。zookeeper选举...

2020-02-10 13:07:56 293

原创 CENTOS7下安装REDIS

yum install gcctar -zxvf cd redis-4.0.6make MALLOC=libccd src./redis-sercer ../redis.conf./redis-cliset "testkey" "testvalue"get "testkey"

2020-01-29 18:09:04 157

原创 centos7上的kafka安装

centos7上的kafka安装

2020-01-29 18:08:40 454

原创 Centos镜像下载地址

CentOS 7官方下载地址：https://www.centos.org/download/Centos国内下载源http://man.linuxde.net/download/CentOShttp://mirrors.btte.net/centos/7/isos/x86_64/http://mirrors.cn99.com/centos/7/isos/x86_64/http://mi...

2020-01-28 17:52:57 569

原创 linux

创建新用户[root@VM ~]# adduser it为这个用户初始化密码，linux会判断密码复杂度，不过可以强行忽略：[root@VM_~]# passwd itChanging password for user it.New password:BAD PASSWORD: it is based on a dictionary wordBAD PASSWORD: is too...

2020-01-28 13:42:56 159

原创 HDFS读写流程

HDFS读写流程HDFS的读写流程

2020-01-18 18:47:15 152

原创 Flink

Flink-WordCountimport org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.java.utils.ParameterTool;import org.apache.flink.streaming.api.datastream.DataStream;import ...

2020-01-16 17:24:27 137

原创 Hive

一、order byorder by 是要对输出的结果进行全局排序，故此只有一个reducer(多个reducer无法保证全局有序)；但是当数据量过大的时候，效率就很低。如果在严格模式下（hive.mapred.mode=strict）,则必须配合limit使用。二、sort bysort by 不是全局排序，只是在进入到reducer之前完成排序，只保证了每个reducer中数据按照指定...

2020-01-13 09:50:25 426

原创富函数（Rich Functions）

“富函数”是DataStream API提供的一个函数类的接口，所有Flink函数类都有其Rich版本。它与常规函数的不同在于，可以获取运行环境的上下文，并拥有一些生命周期方法，所以可以实现更复杂的功能。 RichMapFunction RichFlatMapFunction RichFilterFunctionRich Function有一个生命周期的概念。典型的生命周期方法有：...

2020-01-08 16:56:26 2654

原创 Flink原理与实现：详解Flink中的状态管理

上面Flink原理与实现的文章中，有引用word count的例子，但是都没有包含状态管理。也就是说，如果一个task在处理过程中挂掉了，那么它在内存中的状态都会丢失，所有的数据都需要重新计算。从容错和消息处理的语义上(at least once, exactly once)，Flink引入了state和checkpoint。首先区分一下两个概念，state一般指一个具体的task/operat...

2020-01-06 20:45:45 400

原创 Flink流计算编程--watermark（水位线）

watermark+window处理乱序

2020-01-05 15:13:58 604

原创 Hbase

入门HBase，看这一篇就够了

2020-01-03 22:44:21 129

anomaly_detection_robust_regression.ipynb

流量异常检测代码

2019-08-05

FlinkProj-master.zip

flink项目代码

2019-08-05

Hadoop中文版资料.7z

国外翻译的Hadoop中文版资料，Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

2019-06-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除