2021年04月_五分钟学大数据

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 Hive千亿级数据倾斜解决方案

数据倾斜问题剖析本文首发于公众号【五分钟学大数据】数据倾斜是分布式系统不可避免的问题，任何分布式系统都有几率发生数据倾斜，但有些小伙伴在平时工作中感知不是很明显，这里要注意本篇文章的标题—“千亿级数据”，为什么说千亿级，因为如果一个任务的数据量只有几百万，它即使发生了数据倾斜，所有数据都跑到一台机器去执行，对于几百万的数据量，一台机器执行起来还是毫无压力的，这时数据倾斜对我们感知不大，只有数据达到一个量级时，一台机器应付不了这么多的数据，这时如果发生数据倾斜，那么最后就很难算出结果。所以就需

2021-04-25 10:04:10 3602 20

原创一文学会 Flink CEP(以直播平台监控用户弹幕为例)

我们在看直播的时候，不管对于主播还是用户来说，非常重要的一项就是弹幕文化。为了增加直播趣味性和互动性, 各大网络直播平台纷纷采用弹窗弹幕作为用户实时交流的方式，内容丰富且形式多样的弹幕数据中隐含着复杂的用户属性与用户行为, 研究并理解在线直播平台用户具有弹幕内容审核与监控、舆论热点预测、个性化摘要标注等多方面的应用价值。本文不分析弹幕数据的应用价值，只通过弹幕内容审核与监控案例来了解下Flink CEP的概念及功能。在用户发弹幕时，直播平台主要实时监控识别两类弹幕内容：一类是发布不友善弹幕的用户，

2021-04-16 14:09:01 1878 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

yuan_more的博客

原创 Hive千亿级数据倾斜解决方案

原创一文学会 Flink CEP(以直播平台监控用户弹幕为例)

原创 Hive企业级性能优化（好文建议收藏）

原创通俗易懂数仓建模—Inmon范式建模与Kimball维度建模

原创一文学完所有的Hive Sql（两万字最全详解）

空空如也

空空如也

原创 Hive千亿级数据倾斜解决方案

原创 一文学会 Flink CEP(以直播平台监控用户弹幕为例)

原创 Hive企业级性能优化（好文建议收藏）

原创 通俗易懂数仓建模—Inmon范式建模与Kimball维度建模

原创 一文学完所有的Hive Sql（两万字最全详解）

空空如也

空空如也

原创一文学会 Flink CEP(以直播平台监控用户弹幕为例)

原创通俗易懂数仓建模—Inmon范式建模与Kimball维度建模

原创一文学完所有的Hive Sql（两万字最全详解）