自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(278)
  • 收藏
  • 关注

原创 最新记录一下某外资的面试,2024年最新2024阿里大数据开发笔试总结

# 标题22、消息中间件有用到什么kafka和rabbitMQ。消息丢失、消息重复怎么解决Kafka 在消息处理的顺序性方面有一些机制,但并不保证消息的严格有序性。以下是 Kafka 处理消息顺序性的一些特点:1、分区内有序性: 在每个分区内,消息是有序存储的。Kafka 保证对于每个分区,消息的写入和消费是按照消息的顺序进行的。这意味着对于同一个分区的消息,它们将按照发送的顺序被消费。这样保证了在单个分区内的消息顺序性。2、分区间无序性: 在多个分区之间,消息的顺序性不能得到保证。

2024-05-16 09:59:47 432

原创 最新记一次Mysql大数据分页优化问题(3),2024年最新2024我的大数据开发路要怎么走

GROUP BY 强加了 Order By (这与标准语法冲突,如果要避免,请使用 ORDER BY NULL)这里我有疑问,这样查询就会奇慢无比,因为mysql会查询前面 一百万+10条数据之后 再丢弃前面一百万条数据返回最后10条数据;如果表没有删除、替换、更新操作,记录会显示为插入的顺序。追根寻底, Select 语句如果不加 “Order By”, MySQL会怎么排序呢?今天遇到一个问题,有一个 Select 语句没有加 “Order By”,返回的数据是不确定的。优化方式很多,一般的方式是。

2024-05-16 09:59:14 415

原创 最新讯飞AIUI智能机器人6-----人脸识别技术_科大讯飞人脸识别,大数据开发开发面试2024

【代码】最新讯飞AIUI智能机器人6-----人脸识别技术_科大讯飞人脸识别,大数据开发开发面试2024。

2024-05-16 09:58:41 368

原创 最新认识JS基础与浏览器引擎_js跳转搜索引擎和的意义(1),大数据开发直播面试题

借鉴,使用基于原型(prototype)的继承机制。微软公司于1995年首次推出Internet Explorer,从而引发了与Netscape的浏览器大战。微软对Netscape Navigator解释器进行了逆向工程,创建了JScript,以与处于市场领导地位的这个时候对于开发者来说是一场噩耗,因为需要针对不同的浏览器进行不同的适配1996年11月,网景正式向ECMA(欧洲计算机制造商协会)提交语言标准。

2024-05-16 09:58:08 279

原创 最全Python基础知识进阶之正则表达式_头歌python正则表达式进阶,你花了多久弄明白架构设计

re.subn和sub相同,都是用于替换字符串中的匹配项,只不过subn的结果返回一个元组包含替换后的字符串和替换次数。r’12+‘匹配是’12’,而r’12*‘匹配的是’1’,因为’2’可以重复零次,但’12+'却要求’2’重复一次以上。flags: 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。flags: 标志位,用于控制正则表达式的匹配方式,如:是否区分大小写,多行匹配等等。在字符串中找到正则表达式所匹配的所有子串,并返回一个列表,如果有多个匹配模式,

2024-05-16 02:12:26 804

原创 最全python中常用的魔术方法总结(一)_python __next__魔术方法,2024年最新涨知识

print(‘__init__执行了’)print(‘__init__执行了’)print(“初始化方法”)__iter__被调用。__next__被调用。__next__被调用。__next__被调用。__next__被调用。__next__被调用。__next__被调用。

2024-05-16 02:11:53 281

原创 最全PySpark数据分析基础:PySpark Pandas创建、转换、查询、转置,2024年最新大数据开发面试题

时至如今Pandas仍然是十分火热的基于Python的数据分析工具,与numpy、matplotlib称为数据分析三大巨头,是学习Python数据分析的必经之路。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法,它是使Python成为强大而高效的数据分析环境的重要因素之一。因此我们做分布式数据分析也同样离不开Pandas的支持。

2024-05-16 02:11:20 668

原创 最全Prism框架简介及其项目创建方法(2),太香了

WPF框架是一种用于开发模块化、可重用和可测试的WPF应用程序的框架。它提供了一种简单而强大的方式来管理复杂应用程序的代码和构建高度可扩展的应用程序。

2024-05-16 02:10:47 301

原创 大数据最新ES学习日记(一)-------单节点安装启动_es 单节点运行启动命令(1),2024年最新大数据开发开发的基础

GeoLite2/GeoIP全球ASN-IP离线定位库,官网地址:https://dev.maxmind.com/geoip/geolocate-an-ip?创建用户组,设置es操作用户:groupadd es,向ES用户组添加用户es:useradd es -g es。root权限变更为es权限 : chown -Rf es:es /home/local/es/切换用户为es:su es,执行启动命令:./elasticsearch。进入bin目录安装,命令./elasticsearch即可。

2024-05-15 17:24:17 369

原创 大数据最新ELFK 分布式日志收集系统,还有人不知道什么是大数据开发X的吗

到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。

2024-05-15 17:23:44 407

原创 大数据最新Elasticsearch连续剧之分词器_es 默认分词器(3),万字长文轻松彻底入门大数据

前面两种分词器,各有优点,但是他们的功能确实不够完备,比如使用ik分词器可以对中文进行分词,但是却不能对拼音分词;所以在现实开发中,我们一般使用自定义分词器进行分词,这样既可以对文字分词,也可以对拼音分词,现在咱们来研究一下如何写一个ik+pinyin分词器。PUT /索引名"ik\_pinyin" : { //自定义分词器名"tokenizer":"ik\_max\_word", // 基本分词器"filter":"pinyin\_filter" // 配置分词器过滤},

2024-05-15 17:23:11 354

原创 大数据最新Elasticsearch连续剧之分词器_es 默认分词器(2),面试大数据开发系统架构

前面两种分词器,各有优点,但是他们的功能确实不够完备,比如使用ik分词器可以对中文进行分词,但是却不能对拼音分词;所以在现实开发中,我们一般使用自定义分词器进行分词,这样既可以对文字分词,也可以对拼音分词,现在咱们来研究一下如何写一个ik+pinyin分词器。PUT /索引名"ik\_pinyin" : { //自定义分词器名"tokenizer":"ik\_max\_word", // 基本分词器"filter":"pinyin\_filter" // 配置分词器过滤},

2024-05-15 17:22:37 317

原创 大数据最全【前沿技术RPA】 万字吃透UiPath如何处理异常_uipath的异常处理,【大牛疯狂教学

只要不满足条件或引发错误,活动就会重试包含的活动。此活动用于捕获和处理错误,这就是它类似于TryCatch的原因。不同的是,该活动只是重试执行,而不是提供更复杂的处理机制。该活动有两个主要部分行动和条件。它可以在没有终止条件的情况下使用,在这种情况下,它将重试活动,直到没有异常发生或超过所提供的尝试次数。它还有两个附加属性和。下图显示了UiPath Studio中使用的重试范围活动及其属性。首先是行动部分。这一部分只是一个序列,我们可以在其中放入任意多的活动。这些活动将至少进行一次。

2024-05-15 14:37:34 496

原创 大数据最全【入门必看-算法基础知识讲解】小白都也能看得懂_算法学习(1),2024年最新大数据开发工程师面试题目和答案

大家好,我是小诚,国庆放假后跟一些小伙伴聊天时发现,大家潜意识里都知道想要进入大厂算法是必须过关的,所以很多人在学校就开始去刷题了,题目虽然刷了许多,但是对于学习算法的初衷和衡量一个算法的指标却是模糊的,所以,博主想写一篇关于学习算法的初衷和算法的指标,帮助准备学习算法或者初学算法的小伙伴将基础巩固。本篇文章重点介绍:算法相关知识的介绍,和衡量算法的指标(时间复杂度和空间复杂度)如果文章对你有帮助,可以帮忙一键三连和专栏订阅哦!二、专栏推荐。

2024-05-15 14:37:01 221

原创 大数据最全【入门学习大数据】“伪分布式”的Hadoop应用搭建,2024年最新论程序员成长的正确姿势

角色NameNode在哪里启动:node01的9000端口(node01是前面配过的主机名)要用Hadoop的命令,就要设置HADOOP_HOME,跟JAVA_HOME一个道理。NN和DN都要临时目录,放临时数据的,/tmp 会被系统删除,建议改目录。因为Hadoop需要ssh免密登录的,但ssh有个弊端,必须修改。因为会导致这个id改变,NN和。即:JAVA_HOME 要设置两次:系统,Hadoop。NN的元数据name目录,DN的块数据data目录。必看:配置的内容,给你了,就是缩进的那些东西。

2024-05-15 14:36:28 245

原创 大数据最全【云计算大数据】Spark数据倾斜解决方案,2024火爆全网系列

即使是没有数据倾斜问题,也完全可以优先考虑,用我们讲的这种高级的reduce join转map join的技术,不要用普通的join,去通过shuffle,进行数据的join。按照log,找到发生数据倾斜的shuffle操作,给它传入一个并行度数字,这样的话,原先那个task分配到的数据,肯定会变少。将发生数据倾斜的key,单独拉出来,放到一个RDD中去。1、选择一个RDD,要用flatMap,进行扩容,将每条数据,映射为多条数据,每个映射出来的数据,都带了一个n以内的随机数,通常来说会选择10。

2024-05-15 14:35:55 274

原创 不甘于做curd程序员,小企业的架构师之路_前后端开发 curd 需要多久才能上手工作(1)

在源码部分你至少要掌握以下部分。当看到你简历上写阅读过源码,面试官是会嘿嘿一笑,对老板说这个小伙子还不错,仅次于我。切记,在面试过程中,不建议去背每个类名,给人一种我背我也行的感觉。总结性的描述一下原理即可。

2024-05-15 06:12:00 880

原创 下班路上捡了一部手机,我用8年开发知识主动找到了失主_捡的苹果手机连爱思助手物主会知道吗

我们学开发不光是学敲键盘,挪鼠标,实现了需求谓之器,但是如果可以用开发思维,寻求了万事万物的一个行动过程,那可能就是所谓的道。看着还不过瘾?技术型爽文推荐既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上大数据知识点,真正体系化!由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新需要这份系统化资料的朋友,可以戳这里获取**

2024-05-15 06:11:24 976

原创 下班路上捡了一部手机,我用8年开发知识主动找到了失主_捡的苹果手机连爱思助手物主会知道吗(3)

寒风刺骨,因为没有提前看天气预报,穿的还比较少,风真的很大,我蜷缩着身体砥砺前行着,我不忘初心快速奔走着。走着走着,我看见一个破手机壳。下意识的踢了一脚,我去,竟然没有踢到,再来一脚,竟然没有踢飞,我突然意识到,脚下这个东西不单单是手机壳,而是塑料工业制品下面套着国产加工大厂生产的金属通信设备,里面配套了全球著名的苹果公司的ios系统的那么一个玩意,我赶紧捡起来,左右看了看,嗯,没有人,装起来。我给媳妇拍了张照片,看,我捡了一个大苹果,比我的好多了。

2024-05-15 06:10:48 1048

原创 下班路上捡了一部手机,我用8年开发知识主动找到了失主_捡的苹果手机连爱思助手物主会知道吗(2)

学习开发知识,其实并不是只解决当前用户的需求,实现UI原型的还原,不应该只把自己嵌套在当前的浏览器或者某个docker的环境下。因为不管你在tomcat或者数据库里折腾得再欢,可能到了生活中发现自己失去了超能力。有一次过年回老家,亲戚问我做计算机,能把我修一修电视机不,不好意思,修不了,手机坏了能修不,不好意思,不会。我就想,这哪天在大城市失业了,也不能回老家啊,去工地没人家有力气,送外卖没人家骑电动车跑得快,开滴滴没人家开的溜,这可怎么办是好呢昨天天气超级冷,能把人冻坏那种冷。

2024-05-15 06:10:11 964

原创 《画解数据结构》三十张彩图,画解二叉搜索树_二叉搜索树程序流图(2)

二叉搜索树,又称为二叉排序树,二叉查找树,它满足如下四点性质:1)空树是二叉搜索树;2)若它的左子树不为空,则左子树上所有结点的值均小于它根结点的值;3)若它的右子树不为空,则右子树上所有结点的值均大于它根结点的值;4)它的左右子树均为二叉搜索树;如图所示,对于任何一棵子树而言,它的根结点的值一定大于左子树所有结点的值,且一定小于右子树所有结点的值。

2024-05-14 21:29:58 948

原创 《画解数据结构》三十张彩图,画解二叉搜索树_二叉搜索树程序流图(1)

i 的结点在二叉树中位置完全相同,则被称为。满二叉树一定是完全二叉树,而完全二叉树则不一定是满二叉树。完全二叉树有如下几个特点:1)叶子结点只能出现在最下面两层。2)最下层的叶子结点一定是集中在左边的连续位置;倒数第二层如果有叶子结点,一定集中在右边的连续位置。3)如果某个结点度为 1,则只有左子树,即的情况。4)同样结点数的二叉树,完全二叉树的深度最小。如下图所示,就不是一棵完全二叉树,因为 5 号结点没有右子树,但是 6 号结点是有左子树的,不满足上述第 2 点。

2024-05-14 21:29:21 886

原创 《数据中台架构:企业数据化最佳实践》:感受数据中台建设五步法_数据中台架构企业数据化最佳实践 pdf

当前的数据中台定义是宽泛的,这与数据中台目前所处的实际业务阶段相符合。书中作者张旭老师认为数据中台至少首先是一个分布式的数据仓库,同时包含相对应实施的方法论和方案,介于分布式数据仓库和企业全面数据化中间的任意一个点都可以被定义为数据中台。可以说,数据中台是实现企业全面数据化的一个解决方案,是一套支撑企业全面数据化的架构,会成为企业开展全面数据化的基础设施。一句话概括:“中台为前台而生,专注于为前台赋能,沉淀企业的能力与复用,提升企业的客户响应力。数据中台围绕数据技术开展。

2024-05-14 21:28:44 730

原创 《大数据大创新:阿里巴巴云上数据中台之道》:解密阿里数据中台建设

而在阿里数据公共层建设项目第二阶段完成存储治理领域,已经被扩大到资源治理领域,进而升级到数据资产管理领域,安全权限领域,升级到数据信任领域,因为很多工作已经在产品中实现,平台运维领域不再作为一个数据技术领域被推进,数据模型领域与数据质量领域还在持续推进中,不过增加了许多新的内涵,智能黑盒领域则是新起之秀。承技术启业务,是建设智能数据和催生数据智能的引擎。阿里的数据中台治理主要是在2014年开始的,在2014年以前,阿里的大数据建设处于烟囱式开发状态,这样的开发带来了许多业务的困扰和资源的浪费。

2024-05-14 21:28:07 697

原创 2024年最新带你初识微服务_微服务耦合性还是很高(1),2024年最新大数据开发视频开发面试问题

​ 为什么这么说呢?大家思考一下,先看下面这种情况:​ 假设做一个这样简单的商务管理系统,倒是能做,服务小众嘛,讲究开发效率,一些问题在这体现的不是那么多,但是如果我们把眼光上升到京东、淘宝这些大型的电商项目来看,如果每个全部功能都写到一个模块里,这里给大家打个比方,一根钢管的承重力是200kg,我们买的东西全部放到一根钢管上,但凡它超过这个限度,我们现成的系统是不是就bom~,直接原地爆炸。那我们怎么样才能极大限度地去避免这种事情的发生呢?

2024-05-14 12:10:11 864

原创 2024年最新带你从零学大数据系列之Java篇---第十三章 字符串(3),腾讯T3面试官透露

任何的修改字符串的操作, 都不会对所修改的字符串造成任何的影响。所有的对字符串的修改操作, 其实都是实例化了新的字符串对象。在这个新的字符串中, 存储了修改之后的结果。所以, 如果需要得到对一个字符串修改之后的结果, 需要接收方法的返回值。在类中维护了一个字符串的属性, 这些字符串操作类中的方法, 可以直接修改这个属性的值。这些类中所有的操作方法, 都是对这个字符数组进行的操作。字符串都是常量, 所有的操作字符串的方法, 都不能直接修改字符串本身。

2024-05-14 12:09:35 795

原创 2024年最新带你从零学大数据系列之Java篇---第十三章 字符串(2),2024年最新程序员如何自我学习和成长

由于字符串本身是不可变的, 所以String类所有的修改操作, 其实都是在方法内实例化了一个新的字符串对象, 存储拼接之后的新的字符串的地址, 返回这个新的字符串。当频繁用到字符串操作的时候, 没有中间的临时的字符串出现, 效率较高。在类中维护了一个字符串的属性, 这些字符串操作类中的方法, 可以直接修改这个属性的值。但凡是涉及到字符串操作的使用场景, 特别是在循环中对字符串进行的操作。字符串都是常量, 所有的操作字符串的方法, 都不能直接修改字符串本身。都是用来操作字符串的类。

2024-05-14 12:08:59 704

原创 2024年最新工作笔试遇到的问题(4),2024年最新看完这篇

的2.不能用来求最大值或最小值的问题3.只能求满足某些约束条件的可行解的范围。

2024-05-14 12:08:22 676

原创 2024年最全AI变现之Gpts搞流量+赚钱_gpts广告分成多少钱一次点击(1),阿里快手拼多多等7家大厂大数据开发面试真题

这两天 AI 圈最火的莫过于 OpenAI 开发者大会公布的一个爆炸产品 Gpts 了,大家都知道这个肯定是一个划时代的产品,也绝对是一个风口,虽然官方还没有公布到底怎么通过 Gpts 赚钱,但是奥特曼已经画出来饼了,说后续可以通过使用人数来获得收入,这篇文章就简析一下普通人怎么布局 Gpts ,通过 Gpts 能获得什么。

2024-05-14 03:32:41 372

原创 2024年最全9hutool实战 FileUtil 文件工具类(读取文件)_cn(2),2024年最新大数据开发程序员面试必备的知识点

从文件中读取每一行的UTF-8编码数据。文件中的每行内容的集合 集合类型。文件中的每行内容的集合 集合类型。文件中的每行内容的集合 集合类型。文件中的每行内容的集合 集合类型。文件中的每行内容的集合 集合类型。文件中的每行内容的集合 集合类型。文件中的每行内容的集合 集合类型。文件中的每行内容的集合 集合类型。文件中的每行内容的集合List。文件中的每行内容的集合List。文件中的每行内容的集合List。文件中的每行内容的集合List。文件中的每行内容的集合List。文件中的每行内容的集合List。

2024-05-14 03:32:05 833

原创 2024年最全8年前端带你HTML+CSS入门到实战(附视频+源码)_html,2024年最新大数据开发性能优化和内存优化面试

所以你需要做到的就是,看见一个区域,很快知道该用哪个元素去布局,哪里该用大的块元素,哪里是最终的那个行内元素,哪里需要把块元素转换一下,让他横着拍起来,哪里需要把行内元素转成块元素,用去嵌套其他元素。你需要尽量把每个元素都练一遍,大致看看他的作用,自己做到有印象,可能平时想不起来,但别人提起来,或者做到某个布局的时候,可以联想到有这么个元素,但由于用不用两可,就不去用。谁都会有不熟练的,但不熟练并不是借口,你需要的是述职,通过练习熟知,即便不熟练,当你打开百度那一刻,可能很快你就能找到他了。

2024-05-14 03:31:28 538

原创 2024年最全5G时代-运营商大数据企业获客最佳手段(1),作为大数据开发开发程序员

运营商大数据精准标签建模,标签体系-个性化标签,个性化标签基于400固话、搜索词、URL、APP、位置、短信等五类维度,支持合作伙伴线上自助定制以上个性化标签需求。可以通过自定义标签、对用户进行精准获取。获客盟运营商大数据与运营商达成战略合作,对精准用户进行标签化,根据用户维度,建立模型,获取精准用户数据,运用获客盟平台进行客户大数据分析,采取精准营销。运营商大数据精准营销时代,运用“运营商PB级数据库”的完成了360°用户建模,利用客户的个人行为数据为基础,提供更高效率精确的客源,才是营销的重要手段!

2024-05-14 03:30:52 394

原创 2024年大数据最全【Spark MLlib】(四)K-Means 聚类分析_ml,今天带你详细了解各组件原理

在实际应用中,K-means 算法有两个不得不面对并且克服的问题。Spark MLlib K-means 算法的实现在初始聚类点的选择上,借鉴了一个叫 K-means||的类 K-means++ 实现。K-means++ 算法在初始点选择上遵循一个基本原则: 初始聚类中心点相互之间的距离应该尽可能的远。

2024-05-13 18:44:14 239

原创 2024年大数据最全【Spark MLlib】(五)随机森林,大数据开发面试你必须要知道的那些知识

作为特征列(除去No,year,pm),levelNum作为label列,使用训练集、随机森林算法进行分类建模。使用分类模型对测试集进行预测对预测结果df进行处理,基于prediction列生成predictionStr(0-5转换优-严重污染),对结果进行评估。作为特征列(除去No,year,pm),pm作为label列,使用训练集、随机森林算法进行回归建模,使用回归模型对测试集进行预测,并评估。3、按照下面标准处理pm列,数字结果放进(levelNum)列,字符串结果放进(levelStr)列。

2024-05-13 18:43:38 425

原创 2024年大数据最全【R语言文本挖掘】:情感分析与词云图绘制_情感词云,准备大数据开发面试

网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。需要这份系统化资料的朋友,可以戳这里获取一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!A tibble: 6 × 2A tibble: 6 × 2A tibble: 6 × 2A tibble: 6 × 4A tibble: 6 × 2A

2024-05-13 18:43:02 753

原创 2024年大数据最全【Python数据结构与算法】(五)排序算法(1),腾讯面试算法题

下面我们思考一下如何写代码,上面是进行了一趟排序。我们可以看出一共有两个循环,外面的循环是趟数,内部的循环是遍历无序区进行排序。遍历列表排序,比较列表每相邻的两个数,如果他们的位置错误,则交换。下面我们来看看如何写具体的代码。首先和冒泡排序一样,也需要进行两次for循环,选择排序的基本思想是,每次都选择最小的元素。正确排序到了相应的位置,此时就不再进行排序了,进入。,如果后面的元素有小于当前元素的,则交换与。可以看出,优化后,代码运行次数减少了。(0,n−1−i)。具体如下,我们第一次排序,将。

2024-05-13 18:42:25 1045

原创 2024年Stream之JDK8-最全使用汇总V1(1),大数据开发社招面经分享

【代码】2024年Stream之JDK8-最全使用汇总V1(1),大数据开发社招面经分享。

2024-05-13 13:10:23 891

原创 2024年STM32CubeMX 学习(5)输入捕获实验_stm32cubemx输入捕获,2024年最新大数据开发高级开发岗必问知识点

分频系数为 72-1,意思就是 72 分频(0表示 1 分频,1 表示 2 分频,以此类推),TIM2 的时钟频率为 72 MHz(下图中,APB1 Timer clocks 的时钟频率为 72MHz,TIM2 挂载在 APB1 上)。周期设置为 1000-1(这里要减一,是 HAL 库的定时器总中断,里面代码很多,这里不展示,我们只需要知道一点——当 TIM2 计数值溢出或发生其他事件(如捕获到上升/下降沿信号)时,系统会执行一系列的中断回调函数,其中包括我们将要用到的 计数溢出回调函数。

2024-05-13 13:09:46 1006

原创 2024年spark基础使用指南(1),2024最新中高阶大数据开发面试题总结

/ .orderBy(col(“age”).desc()) //使用col()需要引入包 import static org.apache.spark.sql.functions.col;// .agg(avg(“age”),max(“age”))//分类聚合函数,常与groupby连用。//sparkSession.read.jdbc(“”,“”,“”) //读取数据库内容。// //方法二。//TODO 2、处理数据。

2024-05-13 13:09:09 674

原创 2024年Spark与flink计算引擎工作原理(1),2024年最新阿里巴巴内部大数据开发宝典意外流出

Driver:Spark中的Driver是运行上述Application的main函数,运行main函数会创建SparkContext,创建SparkContext的目的是为了准备Spark应用程序的运行环境,在Spark中SparkContext负责与ClusterManager通信,进行资源申请、任务的分配和监控等,当Executor部分运行完毕后,Driver同时负责将SparkContext关闭,通常用SparkContext代表Driver。ApplicationMaster介绍。

2024-05-13 13:08:33 893

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除