普通网友-CSDN博客

原创最新记录一下某外资的面试，2024年最新2024阿里大数据开发笔试总结

# 标题22、消息中间件有用到什么kafka和rabbitMQ。消息丢失、消息重复怎么解决Kafka 在消息处理的顺序性方面有一些机制，但并不保证消息的严格有序性。以下是 Kafka 处理消息顺序性的一些特点：1、分区内有序性：在每个分区内，消息是有序存储的。Kafka 保证对于每个分区，消息的写入和消费是按照消息的顺序进行的。这意味着对于同一个分区的消息，它们将按照发送的顺序被消费。这样保证了在单个分区内的消息顺序性。2、分区间无序性：在多个分区之间，消息的顺序性不能得到保证。

2024-05-16 09:59:47 661

原创最新记一次Mysql大数据分页优化问题(3)，2024年最新2024我的大数据开发路要怎么走

GROUP BY 强加了 Order By （这与标准语法冲突，如果要避免，请使用 ORDER BY NULL）这里我有疑问，这样查询就会奇慢无比，因为mysql会查询前面一百万+10条数据之后再丢弃前面一百万条数据返回最后10条数据；如果表没有删除、替换、更新操作，记录会显示为插入的顺序。追根寻底， Select 语句如果不加 “Order By”， MySQL会怎么排序呢？今天遇到一个问题，有一个 Select 语句没有加 “Order By”，返回的数据是不确定的。优化方式很多，一般的方式是。

2024-05-16 09:59:14 552

原创最新讯飞AIUI智能机器人6-----人脸识别技术_科大讯飞人脸识别，大数据开发开发面试2024

【代码】最新讯飞AIUI智能机器人6-----人脸识别技术_科大讯飞人脸识别，大数据开发开发面试2024。

2024-05-16 09:58:41 587

原创最新认识JS基础与浏览器引擎_js跳转搜索引擎和的意义(1)，大数据开发直播面试题

借鉴，使用基于原型(prototype)的继承机制。微软公司于1995年首次推出Internet Explorer，从而引发了与Netscape的浏览器大战。微软对Netscape Navigator解释器进行了逆向工程，创建了JScript，以与处于市场领导地位的这个时候对于开发者来说是一场噩耗，因为需要针对不同的浏览器进行不同的适配1996年11月，网景正式向ECMA(欧洲计算机制造商协会)提交语言标准。

2024-05-16 09:58:08 384

原创最全Python基础知识进阶之正则表达式_头歌python正则表达式进阶，你花了多久弄明白架构设计

re.subn和sub相同，都是用于替换字符串中的匹配项，只不过subn的结果返回一个元组包含替换后的字符串和替换次数。r’12+‘匹配是’12’，而r’12*‘匹配的是’1’,因为’2’可以重复零次，但’12+'却要求’2’重复一次以上。flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。flags：标志位，用于控制正则表达式的匹配方式，如：是否区分大小写，多行匹配等等。在字符串中找到正则表达式所匹配的所有子串，并返回一个列表，如果有多个匹配模式，

2024-05-16 02:12:26 952

原创最全python中常用的魔术方法总结（一）_python next魔术方法，2024年最新涨知识

print(‘__init__执行了’)print(‘__init__执行了’)print(“初始化方法”)__iter__被调用。__next__被调用。__next__被调用。__next__被调用。__next__被调用。__next__被调用。__next__被调用。

2024-05-16 02:11:53 345

原创最全PySpark数据分析基础：PySpark Pandas创建、转换、查询、转置，2024年最新大数据开发面试题

时至如今Pandas仍然是十分火热的基于Python的数据分析工具，与numpy、matplotlib称为数据分析三大巨头，是学习Python数据分析的必经之路。Pandas提供了大量能使我们快速便捷地处理数据的函数和方法，它是使Python成为强大而高效的数据分析环境的重要因素之一。因此我们做分布式数据分析也同样离不开Pandas的支持。

2024-05-16 02:11:20 802

原创最全Prism框架简介及其项目创建方法(2)，太香了

WPF框架是一种用于开发模块化、可重用和可测试的WPF应用程序的框架。它提供了一种简单而强大的方式来管理复杂应用程序的代码和构建高度可扩展的应用程序。

2024-05-16 02:10:47 501

原创大数据最新ES学习日记(一)-------单节点安装启动_es 单节点运行启动命令(1)，2024年最新大数据开发开发的基础

GeoLite2/GeoIP全球ASN-IP离线定位库，官网地址：https://dev.maxmind.com/geoip/geolocate-an-ip?创建用户组,设置es操作用户:groupadd es,向ES用户组添加用户es:useradd es -g es。root权限变更为es权限 : chown -Rf es:es /home/local/es/切换用户为es:su es,执行启动命令:./elasticsearch。进入bin目录安装,命令./elasticsearch即可。

2024-05-15 17:24:17 433

原创大数据最新ELFK 分布式日志收集系统，还有人不知道什么是大数据开发X的吗

到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

2024-05-15 17:23:44 482

原创大数据最新Elasticsearch连续剧之分词器_es 默认分词器(3)，万字长文轻松彻底入门大数据

前面两种分词器，各有优点，但是他们的功能确实不够完备，比如使用ik分词器可以对中文进行分词，但是却不能对拼音分词；所以在现实开发中，我们一般使用自定义分词器进行分词，这样既可以对文字分词，也可以对拼音分词，现在咱们来研究一下如何写一个ik+pinyin分词器。PUT /索引名"ik\_pinyin" : { //自定义分词器名"tokenizer":"ik\_max\_word", // 基本分词器"filter":"pinyin\_filter" // 配置分词器过滤},

2024-05-15 17:23:11 419

原创大数据最新Elasticsearch连续剧之分词器_es 默认分词器(2)，面试大数据开发系统架构

前面两种分词器，各有优点，但是他们的功能确实不够完备，比如使用ik分词器可以对中文进行分词，但是却不能对拼音分词；所以在现实开发中，我们一般使用自定义分词器进行分词，这样既可以对文字分词，也可以对拼音分词，现在咱们来研究一下如何写一个ik+pinyin分词器。PUT /索引名"ik\_pinyin" : { //自定义分词器名"tokenizer":"ik\_max\_word", // 基本分词器"filter":"pinyin\_filter" // 配置分词器过滤},

2024-05-15 17:22:37 375

原创大数据最全【前沿技术RPA】万字吃透UiPath如何处理异常_uipath的异常处理，【大牛疯狂教学

只要不满足条件或引发错误，活动就会重试包含的活动。此活动用于捕获和处理错误，这就是它类似于TryCatch的原因。不同的是，该活动只是重试执行，而不是提供更复杂的处理机制。该活动有两个主要部分行动和条件。它可以在没有终止条件的情况下使用，在这种情况下，它将重试活动，直到没有异常发生或超过所提供的尝试次数。它还有两个附加属性和。下图显示了UiPath Studio中使用的重试范围活动及其属性。首先是行动部分。这一部分只是一个序列，我们可以在其中放入任意多的活动。这些活动将至少进行一次。

2024-05-15 14:37:34 776

原创大数据最全【入门必看-算法基础知识讲解】小白都也能看得懂_算法学习(1)，2024年最新大数据开发工程师面试题目和答案

大家好，我是小诚，国庆放假后跟一些小伙伴聊天时发现，大家潜意识里都知道想要进入大厂算法是必须过关的，所以很多人在学校就开始去刷题了，题目虽然刷了许多，但是对于学习算法的初衷和衡量一个算法的指标却是模糊的，所以，博主想写一篇关于学习算法的初衷和算法的指标，帮助准备学习算法或者初学算法的小伙伴将基础巩固。本篇文章重点介绍：算法相关知识的介绍，和衡量算法的指标(时间复杂度和空间复杂度)如果文章对你有帮助，可以帮忙一键三连和专栏订阅哦！二、专栏推荐。

2024-05-15 14:37:01 329

原创大数据最全【入门学习大数据】“伪分布式”的Hadoop应用搭建，2024年最新论程序员成长的正确姿势

角色NameNode在哪里启动：node01的9000端口（node01是前面配过的主机名）要用Hadoop的命令，就要设置HADOOP_HOME，跟JAVA_HOME一个道理。NN和DN都要临时目录，放临时数据的，/tmp 会被系统删除，建议改目录。因为Hadoop需要ssh免密登录的，但ssh有个弊端，必须修改。因为会导致这个id改变，NN和。即：JAVA_HOME 要设置两次：系统，Hadoop。NN的元数据name目录，DN的块数据data目录。必看：配置的内容，给你了，就是缩进的那些东西。

2024-05-15 14:36:28 305

原创大数据最全【云计算大数据】Spark数据倾斜解决方案，2024火爆全网系列

即使是没有数据倾斜问题，也完全可以优先考虑，用我们讲的这种高级的reduce join转map join的技术，不要用普通的join，去通过shuffle，进行数据的join。按照log，找到发生数据倾斜的shuffle操作，给它传入一个并行度数字，这样的话，原先那个task分配到的数据，肯定会变少。将发生数据倾斜的key，单独拉出来，放到一个RDD中去。1、选择一个RDD，要用flatMap，进行扩容，将每条数据，映射为多条数据，每个映射出来的数据，都带了一个n以内的随机数，通常来说会选择10。

2024-05-15 14:35:55 323

原创不甘于做curd程序员，小企业的架构师之路_前后端开发 curd 需要多久才能上手工作(1)

在源码部分你至少要掌握以下部分。当看到你简历上写阅读过源码，面试官是会嘿嘿一笑，对老板说这个小伙子还不错，仅次于我。切记，在面试过程中，不建议去背每个类名，给人一种我背我也行的感觉。总结性的描述一下原理即可。

2024-05-15 06:12:00 957

原创下班路上捡了一部手机，我用8年开发知识主动找到了失主_捡的苹果手机连爱思助手物主会知道吗

我们学开发不光是学敲键盘，挪鼠标，实现了需求谓之器，但是如果可以用开发思维，寻求了万事万物的一个行动过程，那可能就是所谓的道。看着还不过瘾？技术型爽文推荐既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取**

2024-05-15 06:11:24 1181

原创下班路上捡了一部手机，我用8年开发知识主动找到了失主_捡的苹果手机连爱思助手物主会知道吗(3)

寒风刺骨，因为没有提前看天气预报，穿的还比较少，风真的很大，我蜷缩着身体砥砺前行着，我不忘初心快速奔走着。走着走着，我看见一个破手机壳。下意识的踢了一脚，我去，竟然没有踢到，再来一脚，竟然没有踢飞，我突然意识到，脚下这个东西不单单是手机壳，而是塑料工业制品下面套着国产加工大厂生产的金属通信设备，里面配套了全球著名的苹果公司的ios系统的那么一个玩意，我赶紧捡起来，左右看了看，嗯，没有人，装起来。我给媳妇拍了张照片，看，我捡了一个大苹果，比我的好多了。

2024-05-15 06:10:48 1275

原创下班路上捡了一部手机，我用8年开发知识主动找到了失主_捡的苹果手机连爱思助手物主会知道吗(2)

学习开发知识，其实并不是只解决当前用户的需求，实现UI原型的还原，不应该只把自己嵌套在当前的浏览器或者某个docker的环境下。因为不管你在tomcat或者数据库里折腾得再欢，可能到了生活中发现自己失去了超能力。有一次过年回老家，亲戚问我做计算机，能把我修一修电视机不，不好意思，修不了，手机坏了能修不，不好意思，不会。我就想，这哪天在大城市失业了，也不能回老家啊，去工地没人家有力气，送外卖没人家骑电动车跑得快，开滴滴没人家开的溜，这可怎么办是好呢昨天天气超级冷，能把人冻坏那种冷。

2024-05-15 06:10:11 1057

原创《画解数据结构》三十张彩图，画解二叉搜索树_二叉搜索树程序流图(2)

二叉搜索树，又称为二叉排序树，二叉查找树，它满足如下四点性质：1）空树是二叉搜索树；2）若它的左子树不为空，则左子树上所有结点的值均小于它根结点的值；3）若它的右子树不为空，则右子树上所有结点的值均大于它根结点的值；4）它的左右子树均为二叉搜索树；如图所示，对于任何一棵子树而言，它的根结点的值一定大于左子树所有结点的值，且一定小于右子树所有结点的值。

2024-05-14 21:29:58 1030

原创《画解数据结构》三十张彩图，画解二叉搜索树_二叉搜索树程序流图(1)

i 的结点在二叉树中位置完全相同，则被称为。满二叉树一定是完全二叉树，而完全二叉树则不一定是满二叉树。完全二叉树有如下几个特点：1）叶子结点只能出现在最下面两层。2）最下层的叶子结点一定是集中在左边的连续位置；倒数第二层如果有叶子结点，一定集中在右边的连续位置。3）如果某个结点度为 1，则只有左子树，即的情况。4）同样结点数的二叉树，完全二叉树的深度最小。如下图所示，就不是一棵完全二叉树，因为 5 号结点没有右子树，但是 6 号结点是有左子树的，不满足上述第 2 点。

2024-05-14 21:29:21 991

原创《数据中台架构：企业数据化最佳实践》：感受数据中台建设五步法_数据中台架构企业数据化最佳实践 pdf

当前的数据中台定义是宽泛的，这与数据中台目前所处的实际业务阶段相符合。书中作者张旭老师认为数据中台至少首先是一个分布式的数据仓库，同时包含相对应实施的方法论和方案，介于分布式数据仓库和企业全面数据化中间的任意一个点都可以被定义为数据中台。可以说，数据中台是实现企业全面数据化的一个解决方案，是一套支撑企业全面数据化的架构，会成为企业开展全面数据化的基础设施。一句话概括：“中台为前台而生，专注于为前台赋能，沉淀企业的能力与复用，提升企业的客户响应力。数据中台围绕数据技术开展。

2024-05-14 21:28:44 819

原创《大数据大创新：阿里巴巴云上数据中台之道》：解密阿里数据中台建设

而在阿里数据公共层建设项目第二阶段完成存储治理领域，已经被扩大到资源治理领域，进而升级到数据资产管理领域，安全权限领域，升级到数据信任领域，因为很多工作已经在产品中实现，平台运维领域不再作为一个数据技术领域被推进，数据模型领域与数据质量领域还在持续推进中，不过增加了许多新的内涵，智能黑盒领域则是新起之秀。承技术启业务，是建设智能数据和催生数据智能的引擎。阿里的数据中台治理主要是在2014年开始的，在2014年以前，阿里的大数据建设处于烟囱式开发状态，这样的开发带来了许多业务的困扰和资源的浪费。

2024-05-14 21:28:07 833

原创 2024年最新带你初识微服务_微服务耦合性还是很高(1)，2024年最新大数据开发视频开发面试问题

为什么这么说呢？大家思考一下，先看下面这种情况：假设做一个这样简单的商务管理系统，倒是能做，服务小众嘛，讲究开发效率，一些问题在这体现的不是那么多，但是如果我们把眼光上升到京东、淘宝这些大型的电商项目来看，如果每个全部功能都写到一个模块里，这里给大家打个比方，一根钢管的承重力是200kg，我们买的东西全部放到一根钢管上，但凡它超过这个限度，我们现成的系统是不是就bom~，直接原地爆炸。那我们怎么样才能极大限度地去避免这种事情的发生呢？

2024-05-14 12:10:11 935

原创 2024年最新带你从零学大数据系列之Java篇---第十三章字符串(3)，腾讯T3面试官透露

任何的修改字符串的操作，都不会对所修改的字符串造成任何的影响。所有的对字符串的修改操作，其实都是实例化了新的字符串对象。在这个新的字符串中，存储了修改之后的结果。所以，如果需要得到对一个字符串修改之后的结果，需要接收方法的返回值。在类中维护了一个字符串的属性，这些字符串操作类中的方法，可以直接修改这个属性的值。这些类中所有的操作方法，都是对这个字符数组进行的操作。字符串都是常量，所有的操作字符串的方法，都不能直接修改字符串本身。

2024-05-14 12:09:35 852

原创 2024年最新带你从零学大数据系列之Java篇---第十三章字符串(2)，2024年最新程序员如何自我学习和成长

由于字符串本身是不可变的，所以String类所有的修改操作，其实都是在方法内实例化了一个新的字符串对象，存储拼接之后的新的字符串的地址，返回这个新的字符串。当频繁用到字符串操作的时候，没有中间的临时的字符串出现，效率较高。在类中维护了一个字符串的属性，这些字符串操作类中的方法，可以直接修改这个属性的值。但凡是涉及到字符串操作的使用场景，特别是在循环中对字符串进行的操作。字符串都是常量，所有的操作字符串的方法，都不能直接修改字符串本身。都是用来操作字符串的类。

2024-05-14 12:08:59 759

原创 2024年最新工作笔试遇到的问题(4)，2024年最新看完这篇

的2.不能用来求最大值或最小值的问题3.只能求满足某些约束条件的可行解的范围。

2024-05-14 12:08:22 744

原创 2024年最全AI变现之Gpts搞流量+赚钱_gpts广告分成多少钱一次点击(1)，阿里快手拼多多等7家大厂大数据开发面试真题

这两天 AI 圈最火的莫过于 OpenAI 开发者大会公布的一个爆炸产品 Gpts 了，大家都知道这个肯定是一个划时代的产品，也绝对是一个风口，虽然官方还没有公布到底怎么通过 Gpts 赚钱，但是奥特曼已经画出来饼了，说后续可以通过使用人数来获得收入，这篇文章就简析一下普通人怎么布局 Gpts ，通过 Gpts 能获得什么。

2024-05-14 03:32:41 515

原创 2024年最全9hutool实战 FileUtil 文件工具类(读取文件)_cn(2)，2024年最新大数据开发程序员面试必备的知识点

从文件中读取每一行的UTF-8编码数据。文件中的每行内容的集合集合类型。文件中的每行内容的集合集合类型。文件中的每行内容的集合集合类型。文件中的每行内容的集合集合类型。文件中的每行内容的集合集合类型。文件中的每行内容的集合集合类型。文件中的每行内容的集合集合类型。文件中的每行内容的集合集合类型。文件中的每行内容的集合List。文件中的每行内容的集合List。文件中的每行内容的集合List。文件中的每行内容的集合List。文件中的每行内容的集合List。文件中的每行内容的集合List。

2024-05-14 03:32:05 993

原创 2024年最全8年前端带你HTML+CSS入门到实战（附视频+源码）_html，2024年最新大数据开发性能优化和内存优化面试

所以你需要做到的就是，看见一个区域，很快知道该用哪个元素去布局，哪里该用大的块元素，哪里是最终的那个行内元素，哪里需要把块元素转换一下，让他横着拍起来，哪里需要把行内元素转成块元素，用去嵌套其他元素。你需要尽量把每个元素都练一遍，大致看看他的作用，自己做到有印象，可能平时想不起来，但别人提起来，或者做到某个布局的时候，可以联想到有这么个元素，但由于用不用两可，就不去用。谁都会有不熟练的，但不熟练并不是借口，你需要的是述职，通过练习熟知，即便不熟练，当你打开百度那一刻，可能很快你就能找到他了。

2024-05-14 03:31:28 602

原创 2024年最全5G时代-运营商大数据企业获客最佳手段(1)，作为大数据开发开发程序员

运营商大数据精准标签建模，标签体系-个性化标签，个性化标签基于400固话、搜索词、URL、APP、位置、短信等五类维度，支持合作伙伴线上自助定制以上个性化标签需求。可以通过自定义标签、对用户进行精准获取。获客盟运营商大数据与运营商达成战略合作，对精准用户进行标签化，根据用户维度，建立模型，获取精准用户数据，运用获客盟平台进行客户大数据分析，采取精准营销。运营商大数据精准营销时代，运用“运营商PB级数据库”的完成了360°用户建模，利用客户的个人行为数据为基础，提供更高效率精确的客源，才是营销的重要手段！

2024-05-14 03:30:52 480

原创 2024年大数据最全【Spark MLlib】（四）K-Means 聚类分析_ml，今天带你详细了解各组件原理

在实际应用中，K-means 算法有两个不得不面对并且克服的问题。Spark MLlib K-means 算法的实现在初始聚类点的选择上，借鉴了一个叫 K-means||的类 K-means++ 实现。K-means++ 算法在初始点选择上遵循一个基本原则: 初始聚类中心点相互之间的距离应该尽可能的远。

2024-05-13 18:44:14 316

原创 2024年大数据最全【Spark MLlib】（五）随机森林，大数据开发面试你必须要知道的那些知识

作为特征列（除去No，year，pm）,levelNum作为label列，使用训练集、随机森林算法进行分类建模。使用分类模型对测试集进行预测对预测结果df进行处理，基于prediction列生成predictionStr（0-5转换优-严重污染）,对结果进行评估。作为特征列（除去No，year，pm），pm作为label列，使用训练集、随机森林算法进行回归建模，使用回归模型对测试集进行预测，并评估。3、按照下面标准处理pm列，数字结果放进（levelNum）列，字符串结果放进（levelStr）列。

2024-05-13 18:43:38 505

空空如也

空空如也