普通网友-CSDN博客

原创最全数据仓库面试题集锦（附答案和数仓知识体系），2024年最新写的太详细了

这些服务和企业的业务有较强关联性，是企业所独有且能复用的，他是企业业务和数据的积淀，其不仅能降低重复建设，减少烟囱式协助的成本，也是差异化竞争的优势所在。总的来说，数据中台距离业务更近，数据复用能力更强，能为业务提供速度更快的服务，数据中台在数据仓库和数据平台的基础上，将数据生产为一个个数据API服务，以更高效的方式提供给业务。：逻辑模型反映的是系统分析人员对数据存储的观点，是对概念模型的进一步分解和细化，逻辑模型是根据业务规则确定的，关于业务对象，业务对象的数据项以及业务对象之间关系的基本蓝图。

2024-05-16 04:47:45 725

原创最全数据仓库之数据质量建设（深度好文），2024年最新膜拜

一致性是指数据是否遵循了统一的规范，数据集合是否保持了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑，一致性并不意味着数值上的绝对相同，而是数据收集、处理的方法和标准的一致。常见的一致性指标有：ID 重合度、属性一致、取值一致、采集方法一致、转化步骤一致。准确性是指数据记录的信息是否存在异常或错误。和一致性不一样，存在准确性问题的数据不仅仅只是规则上的不一致，更为常见的数据准确性错误就如乱码，其次异常的大或者小的数据也是不符合条件的数据。

2024-05-16 04:47:12 684

原创最全数据仓库——聚集(2)，阿里P8大牛亲自讲解

聚集导航还能够提供其他额外的好处。对于某个给定的查询，在选择星型模式时，要获得最理想的性能，就需要考虑采用在事实表中具有行数最少并且能够回答查询的聚集星型模式。聚集星型模式中事实和维度属性与基本星型模型中相关的事实和维度属性一致，对利用聚集的查询的重写工作包含替换表名和关键字列。围绕性能的原则开展设计工作，从原始星型模式构建聚集模式是有意义的，如果发生类型1变化，将导致增量式维度聚集更加困难。聚集导航是通用的来描述选择基本星型模式还是一个或多个聚集的术语，完成这种服务的软件产品或功能通常被称为聚集导航。

2024-05-16 04:46:39 349

原创最全数据不平衡问题总结_数据不平衡会导致什么问题，2024年最新大数据开发高级面试题汇总

上采样（Oversampling）是通过把少量数据类别的数据重复复制的方法使各类别数据比例维持在合理的比例，但是基于这样采样方法训练出来的模型容易出现过拟合，可以在每次生成新数据的时候加入轻微随机扰动。下采样（Undersampling）是通过从多数数据类中筛选出部分数据使各类别数据比例维持在合理的比例，但是这种采样方法容易丢失关键数据，可以通过多次随机下采样来。（2）小数据 + 轻微数据不平衡（正负样本数量相差在一个数量级内）（4）小数据 + 中微数据不平衡（正负样本数量相差在两个数量级内）

2024-05-16 04:46:06 248

原创大数据最新大数据主要应用领域(2)，2024年最新零基础学习大数据开发编程

（一）农业大数据（1）（ 2）典型的一些应用①、：对自然灾害监测、作物估产及生长动态监测②、：大数据的技术给农产品信息的全面收集提供了技术基础，使农产品质量能够进行全方位比对，增加农产品质量监测的准确性。③、：精准农业决策是指根据各个方面的农业信息制定出一整套有可实施性的精准管理措施。④、：搭建农村综合信息服务系统是为了帮助农业信息的快速和有效的传播，使用全国范围实现信息资源的共享。（二）工业互联网。

2024-05-15 19:59:57 404

原创大数据最新大数据OLAP技术体系学习框架(3)，2024火爆全网系列

利用框架的力量，看懂游戏规则，才是入行的前提大多数人不懂，不会，不做，才是你的机会，你得行动，不能畏首畏尾选择才是拉差距关键，风向，比你流的汗水重要一万倍，逆风划船要累死人的上面这些看似没用，但实际很重要，这里就不再具体说明，感兴趣的同学可以看看我的学习框架的重要性我是怎么坚持学习的怎么确定学习目标本栏目为缺少OLAP技术体系的同学全面整理的体系学习知识，内容是按不同的技术体系整理的，带你丰富大数据****OLAP技术知识体系，想学会就得自律加坚持，赶快行动吧。

2024-05-15 19:59:24 316

原创大数据最新大数据hadoop 备忘录实时更新笔记(1)，10天拿到字节跳动大数据开发岗位offer

当我卡了一个星期以后，实在是没办法，最后以root权限操作hdfs，但是我不想这么妥协，hadoop用户也必须可以使用！！！！sudo获得权限后，hadoop执行语句如下但是这个最好还是在root下面执行，因为没办法看jps进程1.hdfs dfs -cat xxx（文件）|moremore命令是按空格键查看下一位2.hadoop fs -cp [-f] …这个cp命令左右都是hadoop文件里的，跟本地文件无关cp命令兼具改名功能，dst复制过去你想写什么就写什么3.追加功能。

2024-05-15 19:58:51 279

原创大数据最新大数据-玩转数据-FLINK(Yarn模式)的安装与部署_flink安装，2024年最新4面字节跳动拿到Offer

将安装包上传到hadoop100 /home/hadoop/apps 目录下，没有则创建它。下载 jdk-8u371-linux-x64.tar.gz。规划安装目录：/home/hadoop/apps。规划数据目录：/home/hadoop/data。注：apps和data文件夹需要自己单独创建。配置JAVA_HOME。

2024-05-15 19:58:18 289

原创唐伯虎怎么才能快速找到秋香-二分查找算法_唐伯虎点秋香怎么找到秋香的(2)

很明显这里我们用了指针得思想去解题，while start+1

2024-05-15 09:03:44 379

原创唐伯虎怎么才能快速找到秋香-二分查找算法_唐伯虎点秋香怎么找到秋香的(1)

这里我们主要讲解一下关于第一步为什么要单独取最后一位呢？因为当我们一直迭代，迭代到剩下两个数值的时候，那么start=0，end=1，此时(start+end)//2是等于0的，所以我们这个时候的mid一直取第一个数，不会取第二个数。所以我们定义好如果目标值和第二个数相等那么我们直接取值。这就是简单的一个二分查找，主要涉及到的知识点有：1.递归调用。2.二分查找的方法。3.考虑由于除号➗带来的右边边界的特例。这里数组是正序排列，对于排列问题我这里不多说，因为乱序我们可以进行排序吗！！！

2024-05-15 09:03:08 339

原创告别信息搜寻烦恼：用fastgpt快速部署国内大模型知识库助手_fastgpt国内能用吗

Linux 上我们可以从 Github 上下载它的二进制包来使用，最新发行的版本地址：https://github.com/docker/compose/releases。你可以也通过执行下面的命令，高速安装 Docker Compose。Docker Compose 存放在 GitHub，不太稳定。要安装其他版本的 Compose，请替换 v2.2.2。

2024-05-15 09:02:32 290

原创告别信息搜寻烦恼：用fastgpt快速部署国内大模型知识库助手_fastgpt国内能用吗(2)

运行以下命令以下载 Docker Compose 的当前稳定版本：uname−s−要安装其他版本的 Compose，请替换 v2.2.2。Docker Compose 存放在 GitHub，不太稳定。你可以也通过执行下面的命令，高速安装 Docker Compose。

2024-05-15 09:01:56 362

原创【RabbitMQ 第七篇】RabbitMQ实现JSON、Map格式数据的发送与接收_mq map格式(2)

\*\** 绑定*/@Bean//将队列和交换机绑定, 并设置用于匹配键：routingKey路由键/*** 用户信息实体类**///用户编号//用户姓名//博客地址//博客信息/*** 用户消息发送服务接口**//*** 发送用户信息Json格式数据* @param userInfo 用户信息实体类*//\*\** 延时发送用户信息Map格式数据* @param userMap 用户信息Map*/

2024-05-15 00:25:22 1015

原创【RabbitMQ 第七篇】RabbitMQ实现JSON、Map格式数据的发送与接收_mq map格式(1)

在项目中，创建配置类，配置等，并将队列交由 IoC 管理。下面将讲述创建交换器、创建队列、将交换器和队列进行绑定各种方法。

2024-05-15 00:24:45 335

原创【RabbitMQ 第七篇】RabbitMQ实现JSON、Map格式数据的发送与接收_map放到rabittmq

\*\** Direct交换器*/@Bean/\*\** 队列*/@Bean/\*\** 绑定*/@Bean//将队列和交换机绑定, 并设置用于匹配键：routingKey路由键* Direct交换器*/@Bean/*** 创建交换器，参数说明：* String name：交换器名称* boolean durable：设置是否持久化，默认是 false。durable 设置为 true 表示持久化，反之是非持久化。

2024-05-15 00:24:09 805

原创【RabbitMQ 第七篇】RabbitMQ实现JSON、Map格式数据的发送与接收_map放到rabittmq(1)

Direct交换器*/@Bean/*** 创建交换器，参数说明：* String name：交换器名称* boolean durable：设置是否持久化，默认是 false。durable 设置为 true 表示持久化，反之是非持久化。* 持久化可以将交换器存盘，在服务器重启的时候不会丢失相关信息。* boolean autoDelete：设置是否自动删除，为 true 则设置队列为自动删除，*/* 队列*/@Bean/**

2024-05-15 00:23:32 529

原创 C语言高级教程-C语言数组(七)：数组综合实例之井字棋游戏问题_c语言做游戏时遇到的问题(1)

最后的任务是显示格子上最后各个标记的位置，显示比赛结果。如果winner是0,这局就是平手:否则winner含有获胜者的号码。代码如下所示/// 变量定义// 当前玩家编号- 1或2// 中奖选手号码// 选择广场// 正方形的行索引// 正方形的列索引// 检查循环中的行或列索引{'1','2','3'}, // 初始值为字符“1”到“9”{'4','5','6'}, // 用于选择一个空白的方格{'7','8','9'} // 轮到一个玩家了。/// 主要的游戏循环。

2024-05-14 15:02:42 868

原创 c语言进阶篇：文件操作(带你全面学习文件操作)_如何学习c语言文件

今天带大家好好学习一下关于文件操作的一些知识，希望能够对大家有所收获，让我们开始吧！🍁磁盘上的文件是文件。🍁但是在程序设计中，我们一般谈的文件有两种：程序文件、数据文件（从文件功能的角度来分类的）。

2024-05-14 15:02:06 757

原创 c语言进阶篇：文件操作(带你全面学习文件操作)_如何学习c语言文件(1)

关闭文件函数。

2024-05-14 15:01:30 816

原创 C语言贪食蛇小游戏教程来了，手把手教你制作一款属于自己的多彩贪吃蛇游戏_如何给自己的c语言贪吃蛇游戏加上封面

【代码】C语言贪食蛇小游戏教程来了，手把手教你制作一款属于自己的多彩贪吃蛇游戏_如何给自己的c语言贪吃蛇游戏加上封面。

2024-05-14 15:00:53 268

原创 2024年最全三分钟，我让搞后端的学弟爱上了Eolink_eolink 生成代码，大数据开发开发者出路在哪

Eolink强大的权限和项目管理功能，一键分享API文档、离线导出各种格式、通过Open APl与各种平台快速结合。Eolink APIKit 提供了满足API团队协作和流程自动化的所有功能。

2024-05-14 06:24:36 770

原创 2024年最全三入职场 - 你可以从我身上学到这些（附毕业Vlog）(1)，2024年最新非科班面试之旅

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！一、食用需知有必要在文章开头写明：这不是一篇标题党的文章，而是博主自身三次从学校踏入职场的亲身经历和心境变化。刚好拿到第二硕士学位，没想到竟然能名正言顺的以毕业生

2024-05-14 06:24:00 658

原创 2024年最全一篇文章搞懂数据仓库：维度表（设计原则、设计方法），2024年最新2024大数据开发高频精选面试题讲解

有些维度属性获取需要进行比较复杂的逻辑处理，有些需要通过多表关联得到，或者通过单表的不同宇段混合处理得到，或者通过对单表的某个字段进行解析得到。退化维度是维度建模领域中的一个非常重要的概念，它对理解维度建模有着非常重要的作用，退化维度一般在分析中可以用来做分组使用。维度的属性并不是始终不变的，它会随着时间的流逝发生缓慢的变化，这种随时间发生变化的维度我们一般称之为缓慢变化维（SCD），维度是维度建模的基础和灵魂。维度表包含了事实表中指定属性的相关详细信息，最常用的维度表有日期维度、城市维度等。

2024-05-14 06:23:24 627

原创 2024年最全一篇文章搞懂数据仓库：数据治理（目的、方法、流程(1)，2024年最新阿里P8大牛从零开始教大数据开发开源框架

数据治理的目的是使用，对于一个大型的数据仓库来说，数据使用的场景和需求是多变的，那么可以使用 BI 类的产品快速获取需要的数据，并分析形成报表，比较知名的产品有 Microsoft Power BI，QlikView，Tableau，帆软等。：数据治理的第一个步骤是从业务的视角厘清组织的数据资源环境和数据资源清单，包含组织机构、业务事项、信息系统，以及以数据库、网页、文件和 API 接口形式存在的数据项资源，本步骤的输出物为分门别类的数据资源清单。时所得到不同数据间的接近程度。指对同一对象的观测数据在。

2024-05-14 06:22:47 678

原创 2024年大数据最全项目管理（PMP）项目相关方管理_pmp相关方管理(3)，价值2000元的大数据开发学习资源泄露

基于对相关方需求，利益以及对项目成功的潜在影响的分析，制定合理的管理策略，以有效的调动相关方参与整个项目生命周期的过程。主要作用是为项目相关方的互动提供清晰且可操作的计划，以指导相关方参与项目。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！向外：项目团队外的相关方群体以及其代表，供应商和最终用户，监管部门。中立：知晓项目和潜在影响，既不支持，也不反对。支持：知晓项目和潜在影响，支持变更。

2024-05-13 21:36:21 405

原创 2024年大数据最全面试题篇-13-Kafka相关面试题_kafka面试题，差点挂在第四面

消息队列Message Queue，简称MQ。是一种应用间的通信方式，主要由三个部分组成。生产者：Producer消息的产生者与调用端主要负责消息所承载的业务信息的实例化是一个队列的发起方代理：Broker主要的处理单元负责消息的存储、投递、及各种队列附加功能的实现是消息队列最核心的组成部分消费者：Consumer一个消息队列的终端也是消息的调用端,具体是根据消息承载的信息，处理各种业务逻辑。异步处理主要应用于对实时性要求不严格的场景，

2024-05-13 21:35:45 600

原创 2024年大数据最全面试总结------2024 04 04---项目(3)，2024年京东大数据开发岗面试必问

/ Lua脚本返回值为1表示秒杀成功，0表示库存不足。方法：seckill。// 执行Lua脚本。

2024-05-13 21:35:09 374

原创 2024年大数据最全面试官：跨库多表存在大量数据依赖问题有哪些解决方案，2024年最新大数据开发开发基础学习

而且，依赖商品这个核心服务的服务实在是太多了，也就导致后续商品服务每次更新商品时，都需要调用更新订单冗余数据、更新采购冗余数据、更新门店库存冗余数据、更新运营冗余数据等一大堆服务。数据一致性问题：如果订单与采购的冗余数据更新失败了，整个操作都需要回滚。前面我们讲了采购、订单及其他服务都需要依赖商品数据，因此每个服务需要将冗余数据的订阅、更新逻辑做一遍，最终重复的代码就会很多。商品作为一个核心服务，依赖它的服务越来越多，同时随着商品数据量的增长，商品服务已不堪重负，响应速度也变慢，还存在请求超时的情况。

2024-05-13 21:34:33 750

原创最新面试中的最常被问到的两种锁_互斥锁和悲观锁区别，大数据开发面试必备的集合源码详解

*图中有三个存在，分别表示老王，和老王账户，还有一个就是版本信息。版本信息默认是1，**

2024-05-12 18:39:29 782

原创最新零信任架构分析【扬帆】_零信任策略管理器，2024金九银十

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取战项目、大纲路线、讲解视频，并且后续会持续更新**需要这份系统化资料的朋友，可以戳这里获取。

2024-05-12 18:38:52 1011

原创最新零信任架构分析【扬帆】_零信任策略管理器(1)，2024年最新面试竟然被这31道大数据开发基础题难倒了

在传统架构中，在网络范围内发生的任何事情都被认为是可信的。假设网络中的任何用户或活动都已通过身份验证并被授权存在。该模型假定外围安全性是完美无缺的，内部人员绝不会恶意。对于熟悉安全性的任何人来说，此模型中的缺陷都应该很明显。在许多情况下，您不信任外围用户和事件。例如，攻击者以受到破坏的凭据或内部威胁进入，这可能会滥用特权或在网络中横向移动。零信任体系结构使这种理解变得明确，并优先防御内部威胁。

2024-05-12 18:38:17 704

原创最新阿里六面，挂在hrg，我真的不甘心！_阿里hrg面试不谈薪(1)，大数据开发事件分发机制及设计思路

但在阿里不是这样，阿里的hrg基本围绕**“闻味道、摸温度、照镜子、揪头发”**展开面试。“揪头发”：你知道你的上级现在想什么你知道你上级的上级在想什么？上一个台阶看问题，把问题揪出来，揪上去。多方位多角度考虑问题，有全局观。“照镜子”：认识真实的自己，肯定自己的优点，发现自己的短板。美己之美，美人之美！照镜子分照下属、照自己、照同事和照老板，都要做到及时交流，定期review。“摸温度”：需要及时感知这个团队状况，团队士气是否过于低落，需要设法振奋一下，团队士气是否高烧不退，需要降一下温。

2024-05-12 18:37:41 866

原创最全数据批处理速度慢？不妨试试这个_批处理太慢，一名毕业三年的女程序媛面试头条经验

跑批任务涉及的数据量非常大，很可能用到所有的历史数据，而且计算逻辑复杂、步骤众多，所以跑批时间经常是以小时计的，一个任务两三小时是家常便饭，跑到十个小时也不足为奇。随着业务的发展，数据量还在不断增加。跑批数据库的负担快速增长，就会发生整晚都跑不完的情况，严重影响用户的业务，这是无法接受的。

2024-05-12 10:07:51 255

原创最全数据库系统工程师笔记(一)计算机系统(1)，2024年最新源码解析

随着信息技术的飞速发展，数据库已成为现代企业和组织不可或缺的数据管理工具。对于许多专业人士来说，获得中级数据库认证不仅是一项个人成就，更是职业生涯中的重要里程碑。本文将引导你踏上中级数据库备考之路，分享备考策略、学习资源和实践经验，帮助你构建坚实的数据库知识体系，掌握考试要点，从而在考试中取得优异成绩，开启数据管理的新篇章。

2024-05-12 10:07:15 452

原创最全数据仓库解决方案——ODPS组件化改造之路(1)，2024大数据开发面试真题精选干货整理

组件是一种带有多个输入参数和输出参数的SQL代码过程模板, SQL代码的处理过程一般是引入一到多个源数据表，通过过滤，连接，聚合等操作，加工出新的业务需要的目标表。****▐ 组件的。

2024-05-12 10:06:39 379

原创最全数据仓库——事实表_累积型快照和事务性快照区别，作为大数据开发开发程序员

导出模式是要付出代价的，这种好处的获得是通过将查询和报表阶段的工作负担转嫁到ETL阶段实现的。描述条件的事实通常是无事实的。该事实表总是包含值。事实表快照在确定的时间间隔中对问题的度量进行抽样，这样就可以容易地研究问题的度量值，而不需要聚集长期的事务历史。状态度量，通常可以从事务历史中构造出来，然而如果事务历史延伸到很远的过去，或者必须计算许多事务的状态，监控状态将是低效的办法。不包含事实的事实表被称作无事实的事实表。无事实的事实表中的事件能够通过计算行数来聚集，事实表中的任何列也都可以作为计数的基准。

2024-05-12 10:05:58 293

原创大数据最新大数据行业必须掌握的核心技术，武汉软通动力大数据开发面试

大数据采集分为两个重要的方面，首先是大数据智能感知层：必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。其次是基础支撑层：重点攻克分布式虚拟存储技术，大数据获取、存储、组织、分析和决策操作的可视化接口技术，大数据的网络传输与压缩技术，大数据隐私保护技术等。大数据预处理技术主要完成对已接收数据的辨析、抽取、清洗等操作。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2024-05-12 01:30:14 396

原创大数据最新大数据行业必须掌握的核心技术(1)，2024年最新花了19998买的学习教程

目前大数据行业所涉及到的核心技术，就是采集、处理、储存、分析和应用这五个大的方面。大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来，为人类的社会经济活动提供依据，从而提高各个领域的运行效率，大大提高整个社会经济的集约化程度。数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。大数据的数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。第四：大数据分析技术挖掘技术。

2024-05-12 01:29:38 212

原创大数据最新大数据自定义函数udf(1)，大数据开发插件化、模块化、组件化、热修复、增量更新、Gradle

UDF指用户定义函数，即在hive中进行客户化的函数。在实际应用中，我们需要根据实际的业务需求自定义开发这种函数，自定义函数的例子参考文档：UDF函数一共分为三种类型： UDF-一进一出，给定一个参数，输出一个处理后的数据 UDAF-多进一出，属于聚合函数，类似于count、sum等函数 UDTF-一进多出，属于一个参数，返回一个列表作为结果#在sql中可以show functions;展示目前系统已有的udf二，udf制作流程。

2024-05-12 01:29:02 624 1

原创大数据最新大数据自学宝典15天入门Javase（内附资源），2024年最新阿里P7级别面试经验总结

14.Map集合的遍历方式2_根据键值对获取其对应的键和值。17.Map案例_ArrayList嵌套HashMap集合。18.Map案例_HashMap嵌套ArrayList集合。18.增强for遍历List集合_存储自定义类型的对象。15.Map案例_键是String值是Student。16.Map案例_键是Student值是String。02.网编案例_客户端上传文件_接收服务器端回执信息。02.网编案例_客户端上传文件_接收服务器端回执信息。17.扩展_Object#toString()方法。

2024-05-12 01:28:25 489

空空如也

空空如也