大数据
文章平均质量分 65
AmazingJadeWu
Github:https://github.com/amazingWu
开源中国:https://git.oschina.net/WU_QI
展开
-
数据倾斜:row_number over优化(top数据倾斜)
场景求每个域名的top url,存在某几个域名的url数量过多(亿级别),导致整个任务的row_number() over 排序阶段出现长尾。优化思路row_number over 归根到底就是在域名分组的前提下进行全局排序,那么对该场景的问题进行抽象就是 全局排序如何优化。如果能在全局排序前先做一次局部排序,筛选出符合候选条件的候选项,再进行全局排序,将能有效的避免长尾。这让我想到了一个场景就是比赛机制,筛选出金银铜牌,从本质上是类似的,所以看看比赛的机制下,是如何做的,emm,其实就是分组,只是原创 2021-04-30 10:39:29 · 3804 阅读 · 0 评论 -
从GPS离散点统计活动圈子
背景数仓里面有一些IP和GPS共现的数据,希望从这些数据中汇总出IP的大致活动范围方案将IP的离散分布点聚合后,排除离群点,再对非离群点求得最小圆覆盖,考虑到同一个IP可能会在多个地方都有GPS分布,因此可能会有多个聚集点,在求最小圆覆盖前需要多GPS点分类,再对不同的类求最小覆盖圆。此外在计算最小覆盖圆时需要将GPS坐标投影到平面坐标上去,来计算距离。对GPS分类前,需要计算分为几类,可以先用层次聚类求得分为几个类,再用Kmeans来进行聚类。最小覆盖圆的算法网上可以搜索到一些,本文参考了 h原创 2020-12-01 10:07:23 · 397 阅读 · 1 评论 -
Apache Spark DataSource V2 介绍及入门编程指南
Apache Spark DataSource V2 介绍及入门编程指南(1)Apache Spark DataSource V2 介绍及入门编程指南(2)转载 2019-11-15 15:59:42 · 648 阅读 · 0 评论 -
浅谈分布式消息技术 Kafka
Kafka的基本介绍Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集系统和消息系统。Kafka主要设计目标转载 2017-08-05 10:41:08 · 786 阅读 · 1 评论 -
NodeManager生命周期介绍
ResourceManager 内维护了 NodeManager 的生命周期;对于每个 NodeManager 在 ResourceManager 中都有一个 RMNode 与其对应;除了 RMNode ,ResourceManager 中还定义了 NodeManager 的状态(states)以及触发状态转移的事件(event)。具体如下:org.apache.hadoop.yarn.serve转载 2017-08-06 14:37:56 · 353 阅读 · 0 评论 -
NodeManager节点自身健康状态检测机制
每个 NodeManager 节点内置提供了检测自身健康状态的机制(详情参见NodeHealthCheckerService);通过这种机制,NodeManager 会将诊断出来的监控状态通过心跳机制汇报给 ResourceManager,然后ResourceManager 端会通过RMNodeEventType.STATUS_UPDATE 更新 NodeManager 的状态;如果此时的 Node原创 2017-08-06 14:57:22 · 3465 阅读 · 0 评论 -
Hadoop 2.x 架构
Hadoop2.0产生背景一、Hadoop 1.0中HDFS和MapReduce在高可用、扩展性等方面存在问题1、HDFS存在问题NameNode单点故障,难以应用于在线场景NameNode压力过大,且内存受限,影响系统可扩展性2、MapReduce存在的问题JobTracker访问压力大,影响系统可扩展性难以支持除MapReduce计算框架之外的计算框架、比如spar转载 2017-08-31 14:53:32 · 1601 阅读 · 0 评论 -
Zookeeper的leader选举
zookeeper提供了三种方式:LeaderElectionAuthFastLeaderElectionFastLeaderElection默认的算法是FastLeaderElection,所以这篇主要分析它的选举机制。节点状态: 每个集群中的节点都有一个状态 LOOKING, FOLLOWING, LEADING, OBSERVING。都属于这4种,每个节点转载 2017-10-17 21:59:41 · 371 阅读 · 0 评论 -
一种传统数仓中的数据源管理解决方案的构想
背景描述大数据+AI是时代的必然走向,很多企业已经初步或较为完整的建立了数据仓库,数仓能力是数据驱动的必要能力。日渐庞大的数据量,要求企业必须能够有效地管理自己拥有的数据,那围绕这个领域,很多公司或开源组织都有所尝试,典型的如数据血缘,而今天讨论的内容也是这个问题的一个子集。就一个企业而言,其使用的数据承载平台可能是多样化的。目前很多企业的数仓是以HDFS+Hive的技术栈来实现,并且其数据血...原创 2019-07-21 14:19:41 · 529 阅读 · 0 评论