马斯特杨-CSDN博客

原创记录一次FLink 背压过大问题处理过程

最近flink job出现了背压的问题, 后果是导致了checkpoint的生成超时, 影响了flink job的运行.定位问题:如下图:1) flink的checkpoint生成超时, 失败:checkpoint超时2) 查看jobmanager日志,定位问题:jobmanager日志3) 找大神帮忙定位问题, 原来是出现了背压的问题, 缓冲区的数据处理不过来，barrier流动慢，导致checkpoint生成时间长, 出现超时的现象. (check...

2021-01-21 16:19:07 1406

原创贝壳DMP平台建设实践

2020-10-17 15:51:10 480

原创贝壳OLAP平台架构演进

2020-10-17 15:04:20 619

原创 Clickhouse在贝壳的应用（不完整）

2020-10-17 14:23:26 255

原创 ClickHouse性能提升 -- SQL使用规范

不要用select * 反例：select * from app.user_model正例：select login_id,name,sex from app.user_model理由：只查询需要的字段可以减少磁盘io和网络io，提升查询性能不要在大结果集上构造虚拟列反例：select id ,pv, uv , pv/uv rate from app.scene_model正例：select id ,pv, uv fr...

2020-10-12 01:48:53 864

原创构建clickhouse复杂数据模型

智能路径输入，在数据范围内指定结束事件与窗口大小返回，按用户访问时间由小到大排序后的路径字符串select d_i, arrayStringConcat( arrayMap( b - > tupleElement(b, 1), arraySort( y - > tupleElement(y, 2), arrayFilter( (x, y, z) - > toDateTimeOrZero(

2020-10-12 01:47:55 1096

原创 clickhouse高级功能之MaterializeMySQL详解

clickhouse 20.8将新增 MaterializeMySQL引擎 ,可通过binlog日志实时物化mysql数据，极大提升了数仓的查询性能和数据同步的时效性；原有mysql中承担的数据分析工作可交由clickhouse去做，这么做可显著降低线上mysql的负载，从此OLTP与OLAP业务实现完美融合知识列表介绍目前 MaterializeMySQL database engine 还不支持表级别的同步操作，需要将整个mysql database映射到clickhouse，映射过来.

2020-10-12 01:46:33 4232 4

原创 clickhouse优化最佳实践

clickhouse在易企秀数据仓库项目中已投入使用两年，主要为内部用户提供快速查询和多维分析的能力；希望你在业务当中遇到的性能问题，在这里都能得到解决Clickhouse堪称OLAP领域的黑马，最近发布的几个版本在多表关联分析上也有了极大的性能提升，尤其是还引入了MaterializeMySQL Database Engine做到了实时对齐业务线mysql中的数据。表优化数据类型建表时能用数值型或日期时间型表示的字段，就不要用字符串——全String类型在以Hive为中心的数仓建设.

2020-10-12 01:44:37 2508

原创 clickhouse数据模型之session分析

什么是session，Session即会话，是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如，一次会话可以包含多个页面浏览、交互事件等。前言image.pngSession 是具备时间属性的，根据不同的切割规则，可以生成不同长度的 Session; 可见，Session统计与上述智能路径检测的场景有相似之处，都需要寻找用户行为链的边界进行处理；session分析主要包含两部分： session切割；例如，用户访问您的网站，打开了一个网页，有事离.

2020-10-12 01:43:46 857

原创 clickhouse数据模型之用户路径分析

为什么要有路径分析，举个最简单的例子，你的领导想要知道用户在完成下单前的一个小时都做了什么？绝大多数人拿到这个需求的做法就是进行数据抽样观察以及进行一些简单的问卷调参工作，这种方式不但费时费力还不具有代表性，那么这个时候你就需要一套用户行为路径分析的模型作为支撑，才能快速帮组你找到最佳答案前言clickhouse是我见过最完美的OLAP数据库，它不仅将性能发挥到了极致，还在数据分析层面做了大量改进和支撑，为用户提供了大量的高级聚合函数和基于数组的高阶lambda函数。企业中常用的路径分析模型.

2020-10-12 01:42:54 1958 2

原创 clickhouse数据模型之留存分析

clickhouse数据模型之留存分析什么是留存，比如在20200701这天操作了“点击banner”的用户有100个，这部分用户在20200702这天操作了“点击app签到”的有20个，那么对于分析时间是20200701，且“点击banner”的用户在次日“点击app签到”的留存率是20%。背景关于用户留存模型是各大商业数据分析平台必不可少的功能，企业一般用该模型衡量用户的活跃情况，也是能直接反应产品功能价值的直接指标；如，boss想要了解商城改版后，对用户加购以及后续下单情况的影响等。如

2020-10-12 01:40:59 2027

原创 clickhouse数据模型之有序漏斗分析

clickhouse数据模型之有序漏斗分析什么是有序漏斗，有序漏斗需要满足所有用户事件链上的操作都是逡巡时间先后关系的，且漏斗事件不能有断层，触达当前事件层的用户也需要经历前面的事件层前言接上一章智能路径分析，假设我们已经得到了触达支付购买的路径有 “首页->详情页->购买页->支付“ 和 “搜索页->详情页->购买页->支付“ 两个主要路径，但是我们不清楚哪条路径转化率高，那么这个时候漏斗分析就派上用场了漏斗模型是一个倒置的金字塔形状，主要用来.

2020-10-12 01:39:48 896

原创基于ClickHouse的用户行为（路径）分析实践

基于ClickHouse的用户行为（路径）分析实践前言ClickHouse为用户提供了丰富的多参聚合函数（parametric aggregate function）和基于数组+Lambda表达式的高阶函数（higher-order function），将它们灵活使用可以达到魔法般的效果。在我们的体系中，ClickHouse定位点击流数仓，所以下面举几个用它来做用户行为（路径）分析的实战例子，包括：路径匹配智能路径检测有序漏斗转化用户留存 Session统计路径匹配..

2020-10-12 01:38:50 797

原创 ES中nested 嵌套结构的使用

创建模版 curl -H "content-type:application/json" -XPUT es.dsj.inkept.cn/my_movies -d'{ "mappings" : { "ymd" : { "properties" : { "actors" : { "type": "nested", "properties" : { "first_name" : {"type"

2020-09-29 15:38:31 1055 1

原创 ES在亿级数据查询过程中的优化

面试题es 在数据量很大的情况下（数十亿级别）如何提高查询效率啊？面试官心理分析这个问题是肯定要问的，说白了，就是看你有没有实际干过 es，因为啥？其实 es 性能并没有你想象中那么好的。很多时候数据量大了，特别是有几亿条数据的时候，可能你会懵逼的发现，跑个搜索怎么一下 5~10s，坑爹了。第一次搜索的时候，是5~10s，后面反而就快了，可能就几百毫秒。你就很懵，每个用户第一次访问都会比较慢，比较卡么？所以你要是没玩儿过 es，或者就是自己玩玩儿 demo，被问到这个问题容易懵逼，显示出你对

2020-07-29 15:40:58 964

原创 Flink run 参数解释

1 Flink的前世今生（生态很重要）很多人可能都是在 2015 年才听到 Flink 这个词，其实早在 2008 年，Flink 的前身已经是柏林理工大学一个研究性项目，在 2014 被 Apache 孵化器所接受，然后迅速地成为了 ASF（Apache Software Foundation）的顶级项目之一。 Apache Flink is an open source platform for distributed stream and batch data process

2020-06-05 10:58:35 16860 1

原创 Maven常见配置

2020-06-04 21:47:37 132

原创 Flink在海量消息推送实时统计场景的应用

消息推送常常在APP运营过程中，作为提高活跃，增加用户粘性的利器被广泛使用。产运的同学更希望可以看到每场推送活动后的实际统计数据。例如推送的时效性，渠道的推送成功率，到达率和用户的点击率。对于海量推送数据的统计与查询也面临着不小的挑战，本文主要对Flink实时计算技术在海量推送消息实时统计场景进行介绍

2020-05-30 08:59:50 1032

原创基于Flink 的实时精准去重方法总结

去重计算是数据分析业务里面常见的指标计算，例如网站一天的访问用户数、广告的点击用户数等等，离线计算是一个全量、一次性计算的过程通常可以通过 distinct 的方式得到去重结果，而实时计算是一种增量、长期计算过程，我们在面对不同的场景，例如数据量的大小、计算结果精准度要求等可以使用不同的方案。本篇将会基于 Flink 讲解不同的实现方案：MapState 方式去重 SQL 方式去重 HyperLogLog 方式去重 Bitmap 精确去重下面将以一个实际场景为例：计算每个广告每小时的点击用户数，

2020-05-30 08:39:33 3094

原创 Flink 1.10.1与 hive 2.1.*版本Catalog整合方案与事件时间使用案例

Flink 1.10 版本相对与1.9版本在Hive支持方面做了很大的改进，Flink可以通过hiveCatalog 直接使用hive的元数据，在实际业务场景中我们可以很方便的使用FlinkSQL操作hive数据库数据。本文讲解了sql-client和idea测试环境中使用hiveCatalog进行计算。

2020-05-30 01:31:34 975

原创 FLINK SQL 1.10版本实践过程中踩过的坑

FLINK SQL 1.10版本实践过程中踩过的坑1.TO_TIMESTAMP时间戳类型转换问题1.TO_TIMESTAMP时间戳类型转换问题上图是来自阿里巴巴FlinkSQL开发手册 ,案例中TO_TIMESTAMP可以将13位bigint类型的UNIX时间戳转换成 TIMESTAMP的日期类型 2017-09-15T00:00 这种形式。实际操作过程中会出现报错：Flink SQL> select TO_TIMESTAMP(1513135677000);[ERROR] Could

2020-05-30 01:13:48 6735 1

原创 Flink 1.10消费kafka topic 设置偏移量的几种方式

所以必须配置group.id参数从消费者组提交的偏移量开始读取分区（kafka或zookeeper中）。如果找不到分区的偏移量，auto.offset.reset将使用属性中的设置。如果是默认行为(setStartFromGroupOffsets),那么任务从检查点重启，按照重启前的offset进行消费，如果直接重启不从检查点重启并且group.id不变，程序会按照上次提交的offset的位置继续消费。如果group.id改变了，则程序按照auto.offset.reset设置的属性进行消费。但是如果程序带

2020-05-29 21:25:57 4003

原创 Flink SQL-Client 的使用

flink sql client 介绍The SQL Client aims to provide an easy way of writing, debugging, and submitting table programs to a Flink cluster without a single line of Java or Scala code. The SQL Client CLI allows for retrieving and visualizing real-time results

2020-05-11 01:56:03 2465

马斯特杨的博客