分享
文章平均质量分 91
视频连接分享
浮世Talk
这个作者很懒,什么都没留下…
展开
-
大数据管理平台DataSophon开源动态&进行远程Debug方法
生产环境问题定位:在生产环境中,一些问题是只在生产环境才会出现,需要在生产环境中进行调试和定位,但是直接在生产环境中修改和调试会对系统的稳定性造成影响,所以使用远程Debug技术可以在保证系统稳定的前提下进行调试和定位。在远程Debug过程中,调试器可以向JVM发送命令来获取程序的状态,例如当前的线程状态、线程堆栈、变量值等等。多线程问题调试:在多线程的程序中,由于线程之间的并发性和异步性,很难手动定位到具体的问题代码,使用远程Debug技术可以方便地追踪线程的执行过程,定位到具体的问题代码。原创 2023-03-26 17:02:56 · 1148 阅读 · 0 评论 -
Spark SQL深入分析之图解五种Join策略的执行流程与应用场景
本文将从原理层面介绍SparkSQL支持的五大连接策略及其适用场景。通过本文的学习,你将会了解Spark SQL中五大连接策略的连接原理,并且学会根据不同的影响因素和不同的需求场景,选择合适的连接策略,从而更好地完成你的工作。转载 2022-11-22 23:39:38 · 574 阅读 · 0 评论 -
Spark SQL深入分析之图解HashAggregateExec & ObjectHashAggregateExec执行流程
这篇文章继续探讨聚合策略,主要介绍Spark SQL提供的两个基于hash的聚合操作符,即HashAggregateExec和ObjectHashAggregateExec。转载 2022-11-22 23:37:44 · 895 阅读 · 0 评论 -
Spark SQL深入分析之图解SortAggregateExec执行流程
不像基于hash的聚合需要一个hash map来保存所有的缓存键值对(如grouping key -> aggregate value),SortBasedAggregationIterator只需要保存当前聚合组的聚合缓存,因此,仅需一行就足够了。SortAggregateExec使用了一种基于排序的聚合方法,该方法要求通过分组键对行进行排序,以便将具有相同分组键的行放置在一起。中我们知道,一个逻辑聚合运算符可以转化为由多个物理聚合阶段组成的物理计划,聚合策略会根据聚合表达式的类型来规划物理聚合计划。转载 2022-11-22 23:36:23 · 771 阅读 · 0 评论 -
Spark SQL深入分析之图解Aggregation策略工作流程
Aggregation策略根据聚合表达式的类型来规划逻辑聚合运算符的物理执行计划。转载 2022-11-22 23:33:53 · 402 阅读 · 0 评论 -
国产自研开源大数据管理平台DataSophon服务组件安装教程
本文安装DDP服务组件,即hadoop,spark,kafka等大数据组件,进一步体验DataSophon平台提供的其它特性。原创 2022-11-18 19:46:11 · 2975 阅读 · 0 评论 -
国产自研开源大数据管理平台DataSophon Manager安装教程
DataSophon是近日开源的一款国产自研大数据管理平台,致力于快速实现部署、管理、监控以及自动化运维大数据服务组件和节点的能力,帮助你快速构建起稳定、高效的大数据集群服务。主要有以下特性:极易部署,1小时可完成300节点的大数据集群部署国产化兼容,兼容ARM服务器和常用国产化操作系统监控指标全面丰富,基于生产实践展示用户最关心的监控指标灵活便捷的告警服务,可实现用户自定义告警组和告警指标可扩展性强,用户可通过配置的方式集成或升级大数据组件。原创 2022-11-14 17:21:27 · 6297 阅读 · 1 评论 -
系统架构设计师知识点总结:操作系统基本原理
针对不同的硬件平台,操作系统通常建立在一个硬件抽象层(HAL)上,该层位于底层硬件和内核之间,为内核提供各种方便移植的宏定义接口,在不同的平台间移植时,只需要修改宏定义即可。互斥是要保证临界资源在某一时刻只被一个进程访问,同步即是使各进程按一定的制约顺序和速度执行,因此可以概况为:进程的互斥是资源的竞争关系,而同步是进程间的协作关系。位示图是利用二进制的一位(0或1)来表示磁盘中的一个盘块(物理块)的使用情况,当其值为0时表示空闲,当值为1时表示占用。程序是一个静态的概念,而进程是一个动态的概念。.....原创 2022-08-10 21:27:35 · 882 阅读 · 0 评论 -
Ambari-2.7.5整合HDP-3.1.5集群完整安装记录(内附安Ambari-2.7.5 + HDP-3.1.5安装包下载地址)
Ambari是Apache软件基金会中顶级项目,由Ambari Server和Ambari Agent两部分组成,基于它的分布式架构特点,可以便捷的创建、管理、监控Hadoop整个生态圈(例如Hive、HBase、Kafka、ZooKeeper等)的集群。原创 2022-08-06 16:21:49 · 4170 阅读 · 3 评论 -
基于规则的Spark SQL Catalyst优化器(三)
例如,在下面的查询中,连续的map操作会有一个SerializeFromObject操作,紧接着一个DesericalizeToObject操作。这个批次包括CostBasedJoinReorder规则,它是一个基于成本的优化器规则(cost-basedOptimizerrule),用于根据连接中涉及的关系的统计数字找到最有效的连接顺序。CostBasedJoinReorder规则收集join操作中涉及的关系的统计数据,计算所有有效连接组合的成本,并使用预定义的成本公式找到最佳连接组合。.........转载 2022-07-31 11:11:16 · 738 阅读 · 0 评论 -
Kafka能作为数据库使用吗
导读Apache Kafka可以而且应该取代数据库吗?如果是,那么能够在Kafka中存储多长时间的数据?如何在Kafka中查询和处理数据?越来越多诸如此类的问题,你可能很难找到恰当的解释,那么你可以试着从该文章中寻找答案。Apache Kafka和Confluent的联合创始人Jay Kreps在2017年就已经解释了为什么 "在Apache Kafka中存储数据是可以的",然而,时光匆匆...翻译 2020-04-26 09:31:08 · 4814 阅读 · 0 评论 -
全面认识新的JVM语言:Concurnas
Concurnas Logo(真不是C语言)导读不是每天都会有一种新的JVM语言诞生,作为新的JVM语言,Concurnas具有现代的语法和功能,是开源的,并且内置了GPU计算,这为机器学习应用提供了可能。让我们一起来看看Concurna...翻译 2020-04-24 17:33:53 · 392 阅读 · 0 评论 -
与其它众多编程语言相比,Java在安全方面表现如何?
导读与网络安全的其他方面一样,编程语言的安全程度取决于我们所说的 “安全”。的确,与其他一些常用语言相比,Java的漏洞确实较少。同样的,一些较新的语言看起来比Java更安全,至少在第一眼看上去也是如此。很多在Java中发现的安全漏洞都是由于Java的普及而导致的。广泛的使用意味着成千上万的bug猎手致力于寻找Java语言的漏...翻译 2020-04-24 15:09:24 · 1067 阅读 · 0 评论