马斯特杨
码龄6年
关注
提问 私信
  • 博客:69,887
    69,887
    总访问量
  • 29
    原创
  • 333,818
    排名
  • 36
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2018-08-17
博客简介:

马斯特杨的博客

查看详细资料
个人成就
  • 获得33次点赞
  • 内容获得11次评论
  • 获得185次收藏
创作历程
  • 1篇
    2021年
  • 28篇
    2020年
成就勋章
TA的专栏
  • clickhouse
    9篇
  • flink
    10篇
  • DMP
    1篇
  • olap
    1篇
  • es
    2篇
  • maven
    1篇
  • 数据仓库
    4篇
  • kafka
    2篇
  • zookeeper
    1篇
  • spark
    1篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

记录一次FLink 背压过大问题处理过程

最近flink job出现了背压的问题, 后果是导致了checkpoint的生成超时, 影响了flink job的运行.定位问题:如下图:1) flink的checkpoint生成超时, 失败:checkpoint超时2) 查看jobmanager日志,定位问题:jobmanager日志3) 找大神帮忙定位问题, 原来是出现了背压的问题, 缓冲区的数据处理不过来,barrier流动慢,导致checkpoint生成时间长, 出现超时的现象. (check...
原创
发布博客 2021.01.21 ·
1484 阅读 ·
2 点赞 ·
0 评论 ·
8 收藏

贝壳DMP平台建设实践

原创
发布博客 2020.10.17 ·
527 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

贝壳OLAP平台架构演进

原创
发布博客 2020.10.17 ·
682 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Clickhouse在贝壳的应用(不完整)

原创
发布博客 2020.10.17 ·
288 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ClickHouse性能提升 -- SQL使用规范

不要用select * 反例:select * from app.user_model正例:select login_id,name,sex from app.user_model理由:只查询需要的字段可以减少磁盘io和网络io,提升查询性能 不要在大结果集上构造虚拟列 反例:select id ,pv, uv , pv/uv rate from app.scene_model正例:select id ,pv, uv fr...
原创
发布博客 2020.10.12 ·
901 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

构建clickhouse复杂数据模型

智能路径输入,在数据范围内指定结束事件与窗口大小 返回,按用户访问时间由小到大排序后的路径字符串select d_i, arrayStringConcat( arrayMap( b - > tupleElement(b, 1), arraySort( y - > tupleElement(y, 2), arrayFilter( (x, y, z) - > toDateTimeOrZero(
原创
发布博客 2020.10.12 ·
1143 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

clickhouse高级功能之MaterializeMySQL详解

clickhouse 20.8将新增 MaterializeMySQL引擎 ,可通过binlog日志实时物化mysql数据,极大提升了数仓的查询性能和数据同步的时效性;原有mysql中承担的数据分析工作 可交由clickhouse去做,这么做可显著降低线上mysql的负载,从此OLTP与OLAP业务实现完美融合知识列表介绍目前 MaterializeMySQL database engine 还不支持表级别的同步操作,需要将整个mysql database映射到clickhouse,映射过来.
原创
发布博客 2020.10.12 ·
4393 阅读 ·
0 点赞 ·
4 评论 ·
7 收藏

clickhouse优化最佳实践

clickhouse在易企秀数据仓库项目中已投入使用两年,主要为内部用户提供快速查询和多维分析的能力;希望你在业务当中遇到的性能问题,在这里都能得到解决Clickhouse堪称OLAP领域的黑马,最近发布的几个版本在多表关联分析上也有了极大的性能提升,尤其是还引入了MaterializeMySQL Database Engine做到了实时对齐业务线mysql中的数据。表优化数据类型 建表时能用数值型或日期时间型表示的字段,就不要用字符串——全String类型在以Hive为中心的数仓建设.
原创
发布博客 2020.10.12 ·
2611 阅读 ·
1 点赞 ·
0 评论 ·
15 收藏

clickhouse数据模型之session分析

什么是session,Session即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。前言image.pngSession 是具备时间属性的,根据不同的切割规则,可以生成不同长度的 Session; 可见,Session统计与上述智能路径检测的场景有相似之处,都需要寻找用户行为链的边界进行处理;session分析主要包含两部分: session切割;例如,用户访问您的网站,打开了一个网页,有事离.
原创
发布博客 2020.10.12 ·
927 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

clickhouse数据模型之用户路径分析

为什么要有路径分析,举个最简单的例子,你的领导想要知道用户在完成下单前的一个小时都做了什么?绝大多数人拿到这个需求的做法就是进行数据抽样观察以及进行一些简单的问卷调参工作,这种方式不但费时费力还不具有代表性,那么这个时候你就需要一套用户行为路径分析的模型作为支撑,才能快速帮组你找到最佳答案前言clickhouse是我见过最完美的OLAP数据库,它不仅将性能发挥到了极致,还在数据分析层面做了大量改进和支撑,为用户提供了大量的高级聚合函数和基于数组的高阶lambda函数。企业中常用的路径分析模型.
原创
发布博客 2020.10.12 ·
2154 阅读 ·
2 点赞 ·
2 评论 ·
12 收藏

clickhouse数据模型之留存分析

clickhouse数据模型之留存分析什么是留存,比如在20200701这天操作了“点击banner”的用户有100个,这部分用户在20200702这天操作了“点击app签到”的有20个,那么对于分析时间是20200701,且“点击banner”的用户在次日“点击app签到”的留存率是20%。背景关于用户留存模型是各大商业数据分析平台必不可少的功能,企业一般用该模型衡量用户的活跃情况,也是能直接反应产品功能价值的直接指标;如,boss想要了解商城改版后,对用户加购以及后续下单情况的影响等。如
原创
发布博客 2020.10.12 ·
2141 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

clickhouse数据模型之有序漏斗分析

clickhouse数据模型之有序漏斗分析什么是有序漏斗,有序漏斗需要满足所有用户事件链上的操作都是逡巡时间先后关系的,且漏斗事件不能有断层,触达当前事件层的用户也需要经历前面的事件层前言接上一章智能路径分析,假设我们已经得到了触达支付购买的路径有 “首页->详情页->购买页->支付“ 和 “搜索页->详情页->购买页->支付“ 两个主要路径,但是我们不清楚哪条路径转化率高,那么这个时候漏斗分析就派上用场了漏斗模型是一个倒置的金字塔形状,主要用来.
原创
发布博客 2020.10.12 ·
949 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

基于ClickHouse的用户行为(路径)分析实践

基于ClickHouse的用户行为(路径)分析实践前言ClickHouse为用户提供了丰富的多参聚合函数(parametric aggregate function)和基于数组+Lambda表达式的高阶函数(higher-order function),将它们灵活使用可以达到魔法般的效果。在我们的体系中,ClickHouse定位点击流数仓,所以下面举几个用它来做用户行为(路径)分析的实战例子,包括:路径匹配 智能路径检测 有序漏斗转化 用户留存 Session统计路径匹配..
原创
发布博客 2020.10.12 ·
864 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

ES中nested 嵌套结构的使用

创建模版 curl -H "content-type:application/json" -XPUT es.dsj.inkept.cn/my_movies -d'{ "mappings" : { "ymd" : { "properties" : { "actors" : { "type": "nested", "properties" : { "first_name" : {"type"
原创
发布博客 2020.09.29 ·
1103 阅读 ·
1 点赞 ·
1 评论 ·
1 收藏

ES在亿级数据查询过程中的优化

面试题es 在数据量很大的情况下(数十亿级别)如何提高查询效率啊?面试官心理分析这个问题是肯定要问的,说白了,就是看你有没有实际干过 es,因为啥?其实 es 性能并没有你想象中那么好的。很多时候数据量大了,特别是有几亿条数据的时候,可能你会懵逼的发现,跑个搜索怎么一下 5~10s,坑爹了。第一次搜索的时候,是5~10s,后面反而就快了,可能就几百毫秒。你就很懵,每个用户第一次访问都会比较慢,比较卡么?所以你要是没玩儿过 es,或者就是自己玩玩儿 demo,被问到这个问题容易懵逼,显示出你对
原创
发布博客 2020.07.29 ·
1022 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flink run 参数解释

1 Flink的前世今生(生态很重要)很多人可能都是在 2015 年才听到 Flink 这个词,其实早在 2008 年,Flink 的前身已经是柏林理工大学一个研究性项目, 在 2014 被 Apache 孵化器所接受,然后迅速地成为了 ASF(Apache Software Foundation)的顶级项目之一。 Apache Flink is an open source platform for distributed stream and batch data process
原创
发布博客 2020.06.05 ·
17061 阅读 ·
9 点赞 ·
1 评论 ·
29 收藏

Maven常见配置

<build> <!-- 指定JAVA源文件目录 --> <sourceDirectory>src</sourceDirectory> <!-- 配置资源文件--> <resources> <resource> <directory>src</directory>
原创
发布博客 2020.06.04 ·
170 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink在海量消息推送实时统计场景的应用

消息推送常常在APP运营过程中,作为提高活跃,增加用户粘性的利器被广泛使用。产运的同学更希望可以看到每场推送活动后的实际统计数据。例如推送的时效性,渠道的推送成功率,到达率和用户的点击率。对于海量推送数据的统计与查询也面临着不小的挑战,本文主要对Flink实时计算技术在海量推送消息实时统计场景进行介绍
原创
发布博客 2020.05.30 ·
1098 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

基于Flink 的实时 精准去重方法总结

去重计算是数据分析业务里面常见的指标计算,例如网站一天的访问用户数、广告的点击用户数等等,离线计算是一个全量、一次性计算的过程通常可以通过 distinct 的方式得到去重结果,而实时计算是一种增量、长期计算过程,我们在面对不同的场景,例如数据量的大小、计算结果精准度要求等可以使用不同的方案。本篇将会基于 Flink 讲解不同的实现方案:MapState 方式去重 SQL 方式去重 HyperLogLog 方式去重 Bitmap 精确去重下面将以一个实际场景为例:计算每个广告每小时的点击用户数,
原创
发布博客 2020.05.30 ·
3246 阅读 ·
4 点赞 ·
0 评论 ·
15 收藏

Flink 1.10.1与 hive 2.1.*版本Catalog整合方案与事件时间使用案例

Flink 1.10 版本相对与1.9版本 在Hive支持方面做了很大的改进,Flink可以通过hiveCatalog 直接使用hive的元数据,在实际业务场景中我们可以很方便的使用FlinkSQL操作hive数据库数据。本文讲解了sql-client和idea测试环境中使用hiveCatalog进行计算。
原创
发布博客 2020.05.30 ·
1022 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏
加载更多