普通网友-CSDN博客

原创每天一道大厂SQL题【Day20】华泰证券真题实战(二)表转置_证券sql题(2)

不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！但底气着实足了不少，相信不少朋友和我一样，日积月累才是最有效的学习方式！，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大数据岗面试中的。参考答案适用HQL，SparkSQL，FlinkSQL，即大数据组件，其他SQL需自行修改。，以每日1题的形式，带你过一遍热门SQL题并给出恰如其分的解答。大家好，我是Maynor。

2024-05-16 10:39:17 439

原创每天一道大厂SQL题【Day20】华泰证券真题实战(二)表转置_证券sql题(1)

一路走来，随着问题加深，发现不会的也愈来愈多。但底气着实足了不少，相信不少朋友和我一样，日积月累才是最有效的学习方式！

2024-05-16 10:38:44 389

原创每天一道大厂SQL题【Day19】华泰证券真题实战(一)_sql编程题存在一张券商每日的功能号调用情况表,每一条记录反应了

张三 | 语文 | 81 || 张三 | 数学 | 75 || 李四 | 语文 | 76 || 李四 | 数学 | 90 || 王五 | 语文 | 81 || 王五 | 数学 | 100 || 王五 | 英语 | 90 |

2024-05-16 10:38:12 409

原创每天一道大厂SQL题【Day18】腾讯外包(微信相关)真题实战(三)_外包sql题

使用WHERE子句过滤出2020年1月1日发布的帖子，再使用GROUP BY子句将账号ID分组统计帖子数量，最后使用ORDER BY子句按帖子数量降序排列，使用LIMIT子句限制输出结果数量为前10名账号ID。，作为一名资深大数据选手，深知SQL重要性，接下来我准备用100天时间，基于大数据岗面试中的。参考答案适用HQL，SparkSQL，FlinkSQL，即大数据组件，其他SQL需自行修改。，以每日1题的形式，带你过一遍热门SQL题并给出恰如其分的解答。别人的身体里都是才华，你的身体里都是珍珠奶茶。

2024-05-16 10:37:38 436

原创最全【mycat2】mycat2的安装和水平分表_mycat2下载，大数据开发面试数据结构算法

root和123456是mycat默认连接用户密码,url为你mycat安装服务器ip地址,8066为mycat默认端口。查看datasource目录下发现自动生成了一个新的json文件。发现生成了test.shcema.json。

2024-05-16 02:51:56 380

原创最全【Matlab编程】新手入门第七天_matlab box on(2)，非常适合收藏的大数据开发进阶重难点笔记

数据可视化的目的在于：通过图形，从一堆杂乱的离散数据中观察数据内在的关系，感受由图形传递的本质。

2024-05-16 02:51:23 671

原创最全【kerberos】hadoop集群使用keytab认证的逻辑_centos 8 hadoop-2，2024年最新为了跳槽强刷1000道大数据开发真题

【代码】最全【kerberos】hadoop集群使用keytab认证的逻辑_centos 8 hadoop-2，2024年最新为了跳槽强刷1000道大数据开发真题。

2024-05-16 02:50:50 583

原创最全【JDBC-Hive】使用JDBC操作Hive数据库_jdbc操作hive到本地，2024年最新这份字节跳动历年校招大数据开发面试真题解析

止，不再深入研究，那么很难做到真正的技术提升。### 2.2.删除。//Hive连接信息。### 2.3.修改。//Hive连接信息。### 2.4.查询。//Hive连接信息。

2024-05-16 02:50:17 1005

原创大数据最新MATLAB：Image Processing Toolbox工具箱入门实战，2024年最新资深大数据开发开发带你入门Framework

例如校正背景亮度不均匀问题，并将图像转换为二值图像，以便于识别前景对象（单个米粒）。然后分析对象，例如计算每粒大米的面积，并计算图像中所有对象的统计量。之所以使用这种方法，是因为当存在噪声、遮挡和变化的光照条件时该方法表现稳健。经过预处理得到图像的二值版本，然后利用bwconncomp（）在二值图像中查找所有连通分量（对象）得到所有米粒的信息。以下是输入的缺陷检测图片1.jpg（左），和经过histeq（直方图均衡使强度值扩展分布到了图像的完整范围内）函数提高对比度的2.jpg（右）。

2024-05-15 18:03:42 359

原创大数据最新Kafka面试宝典，大数据开发-App的设计架构经验谈

Kafka的那些设计让它有如此高的性能：分区，顺序写磁盘，0-copy，稀疏索引利用二分查找找到对应数据，批量文件压缩。Kafka中的ISR、AR又代表什么？ISR的伸缩又指什么。Kafka中的HW、LEO、LSO、LW等分别代表什么？Kafka的用途有哪些？注：AR = ISR + OSR。

2024-05-15 18:03:09 370

原创大数据最新Kafka面试宝典(2)，2024年最新2024我是如何拿到小米、京东、字节的offer

或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Kafka的那些设计让它有如此高的性能：分区，顺序写磁盘，0-copy，稀疏索引利用二分查找找到对应数据，批量文件压缩。Kafka中的ISR、AR又代表什么？ISR的伸缩又指什么。Kafka的用途有哪些？注：AR = ISR + OSR。

2024-05-15 18:02:36 311

原创大数据最新Kafka生产者分区_第3关 kafka 生产者分区 (三) 头歌，大数据开发面试题集锦在这里

2. 实现3个方法:partition,close,configure。* 3. 编写partition方法,返回分区号。* 1. 实现接口Partitioner。// 4. 获取topic的分区个数。// 2. 创建分区号，返回的结果。// 3. 计算key的hash值。// 1. 创建配置对象。// 1. 获取key。// 5. 计算分区号。// 4. 返回分区号。// 2. 配置属性。

2024-05-15 18:02:02 351

原创大数据最全前端知识点（2）(1)，大数据开发程序员必经的实践之路

上标上标。

2024-05-15 15:17:01 342

原创大数据最全利用GIT实现高效版本控制(2)，2024年最新真服了

Git 是一个强大而灵活的工具，可以帮助开发者有效地管理和控制项目的版本。学习这篇文章，基本上能满足个人的大部分需求了！通过学习和掌握 Git 的基本概念和常用操作，您将能够更高效地进行团队协作，提高项目的质量和可维护性。希望本文能够为您提供一个良好的入门指南，帮助您更好地利用 Git 进行版本控制。祝愿您在开发旅程中取得成功！既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！

2024-05-15 15:16:28 236

原创大数据最全初识Hadoop，太香了

生态圈中的每个子系统只负责解决某一个特定的问题区域，甚至可能更小，它并不是一个全能系统，而是多个小的系统的集成。通俗来讲，带有结构，有序的数据统称为结构化数据，例如我们平常使用的Excel，mysql，数字，符号等等。半结构化数据是结构化数据的一种形式，半结构化数据就是介于完全结构化数据和完全无结构的数据之间的数据。与传统媒体相比，在大数据时代的今天，信息的生产和传播发生了巨大的变化。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等等都属于非结构化数据。

2024-05-15 15:15:55 282

原创大数据最全初识Hadoop(3)，2024年最新大数据开发面试中常问的MMAP到底是啥东东

指以Hadoop为基础的生态圈，是一个很庞大的体系，Hadoop只是其中最重要、最基础的一部分；通俗来讲，带有结构，有序的数据统称为结构化数据，例如我们平常使用的Excel，mysql，数字，符号等等。半结构化数据是结构化数据的一种形式，半结构化数据就是介于完全结构化数据和完全无结构的数据之间的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等等都属于非结构化数据。4、不适合文件的修改，文件只能追加在文件的末尾，不支持任意位置修改，不支持多个写入者操作。

2024-05-15 15:15:22 392

原创从底层结构开始学习FPGA（1）----可配置逻辑块CLB（Configurable Logic Block）_pll算不算fpga的基本单元(1)

输入一共6个，可能的结果就是2的6次方64个，我把这64个结果全部存到LUT里，只要在使用的时候根据输入（也就是地址），拿出存在对应位置的结果就行了，这就是LUT实现各种函数的原理。需要注意的是，这些FF中的一半还可以被配置为锁存器Latch，但是一旦被配置后，则剩余的一半FF就不能使用了，会造成一定的资源浪费。DRAM的概念是相对于BRAM来说的，BRAM是FPGA底层的固有的硬件单元，而DRAM则是使用LUT配置而成的，其位置和使用会稍微灵活一些，但是也有其他不足，两者的使用需要权衡。

2024-05-15 06:55:36 1108

原创从Rviz观测雷达数据到节点节点激光雷达避障_rviz看规划起那个节点

传感器数据包：sensor_msgs，找到消息类型：LaserScan在运行仿真和可视化工具的前提下，显示scan话题里面的消息。

2024-05-15 06:55:00 319

原创今日指数项目之需求调研【三】_华为fusioninsight基于apache进行功能增强的企业级大数据存储、查询和分析的

大数据平台作为基础数据平台，将负担起存储所有业务产生的数据信息，并在平台中按照业务应用进行模型标准化存储沉淀，平台的数据量将持续不断地增加，因此本期大数据平台的整体设计上将充分考虑使用分布式架构，对存储容量的规划将定位在PB级以上，同时保证将来存储容量在扩充时能够通过节点的增加，快速满足容量的扩展性需求。完全开源、社区活跃，文档资料详细。在Hadoop生态圈中，组件的选择、使用，比如Hive，Mahout，Sqoop，Flume，Spark，Oozie等等，需要大量考虑兼容性的问题，整合困难，运维麻烦。

2024-05-15 06:54:24 783

原创今日指数项目之需求调研【三】_华为fusioninsight基于apache进行功能增强的企业级大数据存储、查询和分析的(4)

秒级行情(Hbase)：存储5日内秒级行情，数据量为2.88亿条分时行情(Druid)：存储半年内分时行情数据，数据量为8.64亿条；历史数据(Hive数仓)：以沪深市场2万只证券，存储时间按1年统计：秒级行情： 210亿条以上分时行情： 20亿条以上K线： 1500万条以上日数据采集总量统计：20000（只）* 3600（秒）*4（小时）= 2.88（亿）≈ 85（GB）

2024-05-15 06:53:48 962

原创【C语言进阶】一文速通面试中的指针相关疑难杂症(内含模拟库函数 qsort 的实现)(1)

但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。//函数1使用了这样的调用方式，就被称为回调函数。printf(“请输入两个操作数:>”);printf(“请输入：”);

2024-05-14 22:13:39 596

原创【C语言刷题】牛客网编程入门130题--精选题目（编程初学者赶紧进来!!!）_牛客网c语言题库

问题：一年约有 3.156×107 s，要求输入您的年龄，显示该年龄合多少秒。例如：逆序打印1234可分为：打印个位4 + 逆序打印123。即先打印个位部分，再打印逆序打印除去个位的数字。例如：1234，每次取出他的个位进行打印即可。一行，包含一个整数，输出年龄对应的秒数。而取出个位的操作：%10/10即可完成。数据范围： 0 < age < 200。针对每组输入，反向输出对应四位数。一行，包括一个整数age。将一个四位数，反向输出。迭代思想(非递归，循环)

2024-05-14 22:13:03 823

原创【C语言刷题】牛客网编程入门130题--精选题目（编程初学者赶紧进来!!!）_牛客网c语言题库(1)

问题：一年约有 3.156×107 s，要求输入您的年龄，显示该年龄合多少秒。例如：逆序打印1234可分为：打印个位4 + 逆序打印123。即先打印个位部分，再打印逆序打印除去个位的数字。例如：1234，每次取出他的个位进行打印即可。一行，包含一个整数，输出年龄对应的秒数。而取出个位的操作：%10/10即可完成。数据范围： 0 < age < 200。针对每组输入，反向输出对应四位数。一行，包括一个整数age。将一个四位数，反向输出。迭代思想(非递归，循环)

2024-05-14 22:12:27 334

原创【C语言】规范掌握C语言函数数组名的妙用指针快速入门综合使用小案例_c语言函数名数组名字指针

/2、创建时赋值，使用大括号，此时可省略中括号的值，例如：int B[]={3,1,2};//3、给特定部分赋值，这里的行的大小可以省略，因为编译器可以根据赋值情况推断出有四行数据。//1、直接创建，不初始化，要给数组确定的大小。//1、不初始化，规定好行数和列数。}//打印结果：1 3 2 5 4。//3、全部初始化为0。//2、全部初始化为0。

2024-05-14 22:11:50 719

原创 2024年最新邵奈一的技术博客导航，2024年最新大数据开发攒了一个月的面试题及解答

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！1、分布式集群环境之Scala的安装与配置（Centos7）2、IntelliJ IDEA开发Spark案例之WordCount3、分布式集群环境之Spark的安

2024-05-14 12:54:08 981

原创 2024年最新邵奈一的技术博客导航(1)，2024年最新大数据开发高级工程师进阶学习—大数据开发热修复原理

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取项目实战：飞机延误预测项目1、D009 复制粘贴玩大数据之安装与配置Flume集群2、Flume入门案例之NetCat-Souces3、Flume+Kafka+Storm实战：二、Flume整合Kafka1、D01

2024-05-14 12:53:31 948

原创 2024年最新进阶版JavaScript学习【第一期】_var timer = document，2024年最新程序员必学之一

DOM：文档对象模型（Document Object Model），是W3C组织推荐的处理可扩展标记语言的标准编程接口，DOM接口可以改变网页的内容、结构和样式。通过DOM获取过来的元素是一个对象（Object），所以称为文档对象模型。

2024-05-14 12:52:55 878

原创 2024年最新轻松学习jQuery控制DOM_jquery平滑显示指定dom(2)，怒肝三个月啃完这110道面试题

语法说明：找到某个兄弟元素li，然后通过指定兄弟元素li去插入新元素li到兄弟元素的前面;//点击图片，设置多个属性：src属性值、title属性、width属性。//点击图片，设置新的src属性值。‘title’:‘女神刘亦菲’,//点击图片，删除src属性值。before()方法**

2024-05-14 12:52:18 676

原创 2024年最全hive 中少量数据验证函数的方法-stack(2)，2024年最新大数据开发数据结构算法面试题

‘河北’,‘石家庄’,‘2’,‘2022-01-02’,‘河北’,‘张家口’,‘2’,‘2022-01-02’,‘河北’,‘张家口’,‘2’,‘2022-01-02’,‘陕西’,‘西安’,‘0’,‘2022-01-02’,‘陕西’,‘西安’,‘1’,‘2022-01-03’,‘陕西’,‘西安’,‘2’,‘2022-01-02’,‘陕西’,‘延安’,‘0’,‘2022-01-02’,‘陕西’,‘延安’,‘1’,‘2022-01-03’,‘陕西’,‘延安’,‘0’,‘2022-01-02’

2024-05-14 04:16:19 357

原创 2024年最全HBase架构(1)，刚从阿里、头条面试回来

HBase采用形式，主要组成：HMaster，HRegionServer，HRegion，ZooKeeper，DFS Client。

2024-05-14 04:15:43 326

原创 2024年最全HashMap 面试中的 12 个点_红黑树头插尾插，2024年最新吊打面试官系列

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！元素对应的 index 是通过下面代码赋值的，即扩容时能更快地计算出的，提高扩容效率比如 map 大小为 16 ，key 为 2 所在的 index

2024-05-14 04:15:07 667

原创 2024年最全Hadoop集群搭建(1)，大数据开发工程师的面试题

需要配置一下 JAVA_HOME 环境变量，在 /etc/profile 中进行设置。文件末尾追加如下配置JAVAHOMEbinPATHJAVAHOMElibdtjar编辑完成后，需要执行以下命令让其生效。

2024-05-14 04:14:30 825

原创 2024年大数据最全一零四、大数据可视化技术与应用实训（展示大屏幕），2024年最新大数据开发开发框架

(img-KpzVPlKV-1715599653788)](img-qWCkHAlk-1715599653788)]e": “喀什地区”,

2024-05-13 19:27:58 529 1

原创 2024年大数据最全一篇文章搞懂数据仓库：数据仓库的8个发展阶段，2024年最新写得太好了

全企业集成（EnterpriseIntergration，1988）同时，IBM也在处理信息管理不同方面的问题，其最烦人的问题是不断增加的信息孤岛，IBM的很多客户要面对很多分立系统的数据集成问题，而这些系统有不同的编码方式和数据格式。第一次，MIT的研究员将业务系统和分析系统分开，将业务处理和分析处理分成不同的层次，并采用单独的数据存储和完全不同的设计准则。用户服务用以支持对数据的直接交互，包含了其他服务的所有人机交互界面，这是系统架构的一个非常大的转变，第一次将交互界面作为单独的组件提出来。

2024-05-13 19:27:20 780

原创 2024年大数据最全一文实现nnUNet v2 分割肾脏肿瘤数据集KiTS19_kits19数据集(4)，2024最新大数据开发大厂面试题来袭

然后在dataset中，新建四个文件夹如下图所示，其中后三个用来存储nnunet数据和结果。dataset_conversion用来存储过程代码。在nnUNet_raw文件中，新建文件夹Dataset040_KiTS。注意此处必须为Dataset，因为nnunetV1版本是task，v2改为了Dataset。然后在其中存放结构化处理后的数据。然后在dataset_conversion文件中，新建一个py文件，用来生成对KiTS数据集做出描述的json文件dataset。

2024-05-13 19:26:44 463

原创 2024年大数据最全一文实现nnUNet v2 分割肾脏肿瘤数据集KiTS19_kits19数据集(2)，2024年最新整理了3家面试问题：美团+字节+腾讯

在nnUNet_raw文件中，新建文件夹Dataset040_KiTS。注意此处必须为Dataset，因为nnunetV1版本是task，v2改为了Dataset。然后在其中存放结构化处理后的数据。然后在dataset_conversion文件中，新建一个py文件，用来生成对KiTS数据集做出描述的json文件dataset。（此处我还将其命名为Dataset040_KiTS）代码内容如下：（此处参考博客_宁远x的博客-CSDN博客")，并做了一些改动）

2024-05-13 19:26:07 436

原创 2024年【大数据】Kafka高频面试题（二）_kafka能手动删除消息吗，2024年最新年薪50W

log.retention.ms > log.retention.minutes > log.retention.hours优先级来设置，**这里需要注意：删除过期的日志段文件，并不是简单的根据该日志段文件的修改时间计算的，而是要根据该日志段中最大的时间戳 largestTimeStamp 来计算的，首先要查询该日志分段所对应的时间戳索引文件，查找该时间戳索引文件的最后一条索引数据，如果时间戳值大于0，则取值，否则才会使用最近修改时间（lastModifiedTime）。基于日志大小策略。

2024-05-13 13:54:04 717

原创 2024年【其他】多维分析预汇总应该怎样做才管用？(1)，2024年最新快来收藏

将时间段分成三段，2月到8月整月的数据基于月汇总cube2计算聚合值，再使用cube1计算 1 月 22 日到 1 月 31 日和 9 月 1 日到 9 月 8 日的聚合值，涉及的计算量是 7（2 月 -8 月）+10（1 月 22 日 -1 月 31 日）+8（9 月 1 日 -9 月 8 日）=25，而如果使用cube1数据聚合，其计算量是 223（从 1 月 22 日到 9 月 8 日的天数），几乎减少了 10 倍。预汇总能够应对的场景仍然很有限，要做出灵活的多维分析，还是要指望过硬的遍历能力。

2024-05-13 13:53:28 613

原创 2024年【云原生】开源数据分析 SPL 轻松应对 T+0_开源spl(3)，面试大数据开发开发十大问题

由于具备独立且完善的计算能力，SPL可以分别从不同的数据库取数计算，因此可以很好适应异构数据库的情况，还可以根据数据库的资源状况决定计算是在数据库还是SPL中实施，非常灵活。在计算实现上，SPL的敏捷语法与过程计算可以大大简化T+0查询中的复杂计算，提升开发效率，SPL解释执行支持热部署。更进一步，依托SPL的强计算能力还可以完成冷热数据分离时的ETL任务。SPL还提供了自有的高性能二进制文件存储，对性能要求较高时可以将历史冷数据使用文件存储，再借助SPL的高性能算法与并行计算来提升查询效率。

2024-05-13 13:52:52 927

原创 2024年【云原生】开源数据分析 SPL 轻松应对 T+0_开源spl(2)，2024年最新刚从阿里、头条面试回来

T+0查询是指实时数据查询，数据查询统计时将涉及到最新产生的数据。在数据量不大时，T+0很容易完成，直接基于生产数据库查询就可以了。但是，当数据量积累到一定程度时，在生产库中进行大数据量的查询会消耗过多的数据库资源，严重时会影响交易业务，这就不能接受了，毕竟生产交易是更关键的任务。所以，我们常常会把大量用于查询分析的历史数据从生产库中分离出去，使用单独的数据库存储和查询，以保证查询统计不会影响生产业务，这就是常说的冷热数据分离。数据分离后就会产生T+0问题。

2024-05-13 13:52:15 847

空空如也

空空如也