![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
clickhouse
马斯特杨
这个作者很懒,什么都没留下…
展开
-
Clickhouse在贝壳的应用(不完整)
原创 2020-10-17 14:23:26 · 255 阅读 · 0 评论 -
ClickHouse性能提升 -- SQL使用规范
不要用select * 反例:select * from app.user_model正例:select login_id,name,sex from app.user_model理由:只查询需要的字段可以减少磁盘io和网络io,提升查询性能 不要在大结果集上构造虚拟列 反例:select id ,pv, uv , pv/uv rate from app.scene_model正例:select id ,pv, uv fr...原创 2020-10-12 01:48:53 · 866 阅读 · 0 评论 -
构建clickhouse复杂数据模型
智能路径输入,在数据范围内指定结束事件与窗口大小 返回,按用户访问时间由小到大排序后的路径字符串select d_i, arrayStringConcat( arrayMap( b - > tupleElement(b, 1), arraySort( y - > tupleElement(y, 2), arrayFilter( (x, y, z) - > toDateTimeOrZero(原创 2020-10-12 01:47:55 · 1098 阅读 · 0 评论 -
clickhouse高级功能之MaterializeMySQL详解
clickhouse 20.8将新增 MaterializeMySQL引擎 ,可通过binlog日志实时物化mysql数据,极大提升了数仓的查询性能和数据同步的时效性;原有mysql中承担的数据分析工作 可交由clickhouse去做,这么做可显著降低线上mysql的负载,从此OLTP与OLAP业务实现完美融合知识列表介绍目前 MaterializeMySQL database engine 还不支持表级别的同步操作,需要将整个mysql database映射到clickhouse,映射过来.原创 2020-10-12 01:46:33 · 4237 阅读 · 4 评论 -
clickhouse优化最佳实践
clickhouse在易企秀数据仓库项目中已投入使用两年,主要为内部用户提供快速查询和多维分析的能力;希望你在业务当中遇到的性能问题,在这里都能得到解决Clickhouse堪称OLAP领域的黑马,最近发布的几个版本在多表关联分析上也有了极大的性能提升,尤其是还引入了MaterializeMySQL Database Engine做到了实时对齐业务线mysql中的数据。表优化数据类型 建表时能用数值型或日期时间型表示的字段,就不要用字符串——全String类型在以Hive为中心的数仓建设.原创 2020-10-12 01:44:37 · 2509 阅读 · 0 评论 -
clickhouse数据模型之session分析
什么是session,Session即会话,是指在指定的时间段内在您的网站/H5/小程序/APP上发生的一系列用户行为的集合。例如,一次会话可以包含多个页面浏览、交互事件等。前言image.pngSession 是具备时间属性的,根据不同的切割规则,可以生成不同长度的 Session; 可见,Session统计与上述智能路径检测的场景有相似之处,都需要寻找用户行为链的边界进行处理;session分析主要包含两部分: session切割;例如,用户访问您的网站,打开了一个网页,有事离.原创 2020-10-12 01:43:46 · 859 阅读 · 0 评论 -
clickhouse数据模型之用户路径分析
为什么要有路径分析,举个最简单的例子,你的领导想要知道用户在完成下单前的一个小时都做了什么?绝大多数人拿到这个需求的做法就是进行数据抽样观察以及进行一些简单的问卷调参工作,这种方式不但费时费力还不具有代表性,那么这个时候你就需要一套用户行为路径分析的模型作为支撑,才能快速帮组你找到最佳答案前言clickhouse是我见过最完美的OLAP数据库,它不仅将性能发挥到了极致,还在数据分析层面做了大量改进和支撑,为用户提供了大量的高级聚合函数和基于数组的高阶lambda函数。企业中常用的路径分析模型.原创 2020-10-12 01:42:54 · 1965 阅读 · 2 评论 -
clickhouse数据模型之留存分析
clickhouse数据模型之留存分析什么是留存,比如在20200701这天操作了“点击banner”的用户有100个,这部分用户在20200702这天操作了“点击app签到”的有20个,那么对于分析时间是20200701,且“点击banner”的用户在次日“点击app签到”的留存率是20%。背景关于用户留存模型是各大商业数据分析平台必不可少的功能,企业一般用该模型衡量用户的活跃情况,也是能直接反应产品功能价值的直接指标;如,boss想要了解商城改版后,对用户加购以及后续下单情况的影响等。如原创 2020-10-12 01:40:59 · 2028 阅读 · 0 评论 -
clickhouse数据模型之有序漏斗分析
clickhouse数据模型之有序漏斗分析什么是有序漏斗,有序漏斗需要满足所有用户事件链上的操作都是逡巡时间先后关系的,且漏斗事件不能有断层,触达当前事件层的用户也需要经历前面的事件层前言接上一章智能路径分析,假设我们已经得到了触达支付购买的路径有 “首页->详情页->购买页->支付“ 和 “搜索页->详情页->购买页->支付“ 两个主要路径,但是我们不清楚哪条路径转化率高,那么这个时候漏斗分析就派上用场了漏斗模型是一个倒置的金字塔形状,主要用来.原创 2020-10-12 01:39:48 · 896 阅读 · 0 评论