三石大数据-CSDN博客

原创史上最全的2023最新大数据面试笔记【200+页，10w+字】

简介：我本硕都是双非计算机专业，研二开始学习大数据开发的相关知识，从找实习到秋招，投递过100+公司，拿到过的offer，包括滴滴、字节、蚂蚁、携程、蔚来、去哪儿等大厂，现在已经签约。依稀还记得刚开始找工作，从零开始准备八股文的时候，心情超级浮躁，不知道该准备哪些内容（大数据组件实在太多了！！！在找工作的整个过程中，有了和面试官无数次交锋的机会，终于总结出了一份最强大数据面试笔记，非常好用！！！最后，为了回馈CSDN，决定将自己总结的所有面试重点题目开源出来，供大家学习参考！！！

2023-04-18 11:32:35 2020 5

原创史上最全的大数据开发八股文【自己的吐血总结】

我本硕都是双非计算机专业，从研一下开始学习大数据开发的相关知识，从找实习到秋招，我投递过100+公司，拿到过10+的offer，包括滴滴、字节、蚂蚁、携程、蔚来、去哪儿等大厂（岗位都是大数据开发），现在已经签约蚂蚁。秋招一路走来，踩过不少坑，比如，刚开始学习大数据的时候，看见那么多的组件框架，不知道如何下手；还有在找工作的时候，不知道如何做好充分的准备等等问题。接下来我主要介绍大数据开发的学习路线，以及八股文总结相关内容。

2023-02-27 14:21:51 8070 4

原创 Generalized Multi-Relational Graph Convolution Network

Generalized Multi-Relational Graph Convolution Network 普适的多关系的图卷积网络(GEM-GCN)普适体现在什么地方？在读完这篇论文，我的理解是，由于论文中提出的新的GCN框架可以适用于多种知识图谱表示的模型1. 动机以往的知识图谱的表示学习，例如TransE，DistMult，ComplEx，RotatE等，在学习实体和关系的表示的时候存在一个问题：三元组被单独的拿来训练，换句话说，这些方法没有利用知识图谱丰富的结构信息来训练模型。

2021-01-20 15:31:29 471 4

原创知识图谱之NELL数据集简介

1 NELL数据集简介来源：NELL1.1 目录结构train_tasks.jsondev_tasks.jsontest_tasks.jsonent2idsrelation2idspath_graphe1rel_e2.jsonrel2candidates.json1.2 对应文件的解释训练集：每个关系所在的三元组的数量在50到500之间 51个关系验证集：每个关系所在的三元组的数量在50到500之间 5个关系测试集：每个关系所在的三元组的数量在50到500之

2020-12-21 08:41:47 6170 4

原创大数据面试大厂真题【附答案详细解析】

问题：HashMap的底层实现原理。

2023-11-26 12:09:38 601

原创 Flink在汽车行业的应用【面试加分系列】

一方面是自己学习完后觉得非常好，然后总结发出来方便大家阅读；另外一方面，看这些汇报对你的面试帮助会很大，特别是面试前可以看看即将面试公司在大数据前沿的发展动向（我曾经就有过一次经历，面试网易云音乐前，我在B站看了一个大佬分享的网易云实时数仓，刚好在面试的时候就碰见他了，最后反问就主动跟他说我看过他的汇报，然后还提出了自己的一些思考，面试官当场就给我通过了）

2023-11-11 11:57:43 804

原创 2024届提前批你准备好了吗

第一事情就是做简历，因为有些同学可能没有找过实习，因此之前没有现成的简历，**做简历非常重要！最后就是总结，**在每面完一场后，一定要复盘！**这样你才知道自己的知识库还缺少哪些东西，那么这一场的面试才有价值！：重心需要在实习上，抓住转正的机会，为秋招做准备，如果工作不忙，可以找一下提前批。，这些面经中出现的题目很有可能会出现在自己的面试当中，这些题目需要重点掌握。相信到这个阶段，同学们一轮复习已经结束了！，所以回答的时候，只要自信，言之有理即可！接着就是面试，如果遇到不会的题目，

2023-07-01 23:01:12 576

原创大数据开发面试重点【2023届秋招总结】

我本硕都是双非计算机专业，从研一下开始学习大数据开发的相关知识，从找实习到秋招，我投递过100+公司，拿到了10+的offer，包括滴滴、字节、蚂蚁、携程、蔚来、去哪儿等大厂。经过无数场的面试，不断总结，终于摸清了面试官到底喜欢问哪些问题。今天把自己总结的一些内容分享给大家，欢迎大家补充讨论！！！ps：这里仅提供了部分大数据开发面试的相关内容1. MapReduce的原理map阶段：首先通过InputFormat把输入目录下的文件进行逻辑切片，默认大小等于block大小，并且每一个切片由一个map

2023-03-15 09:56:16 677

原创大数据面试核心101问【大厂超级喜欢这些题】

1. HDFS的架构 72. HDFS的读写流程 73. 小文件过多有什么危害，你知道的解决办法有哪些 84. Secondary NameNode 了解吗，它的工作机制是怎样的 85. 简述MapReduce整个流程 96. join原理 97. yarn 的任务提交流程是怎样的 108. 简述Hadoop1.0 2.0 3.0区别 109. 简述什么是CAP理论，zookeeper满足CAP的哪两个 1110. zookeeper集群的节点数为什么建议奇数台 1111. Paxos算

2023-03-04 09:20:13 1853

原创【面试突击算法第三天】剑指offer + Leetcode Hot100

面试算法突击

2022-06-27 22:23:57 310

原创【面试突击算法第二天】剑指offer + Leetcode Hot100

大厂面试算法题

2022-06-26 11:48:04 400

原创【面试突击算法第一天】剑指offer + Leetcode Hot100

面试突击算法，面试常考算法题，详细的思路

2022-06-25 12:23:41 693

原创 Leetcode SQL会员题【吐血总结~~】第五天

sql会员题刷题计划第五天，里面给出了很多做sql题的常用方法，以及我是如何一步一步做出的需求拆解过程

2022-04-13 10:52:14 765

原创 Leetcode SQL会员题【吐血总结~~】第四天

SQL会员题第四天刷题计划，本文档列出了所有的题目高清图片，并且给出了自己的源代码以及如何解决这个问题的一些思路~

2022-04-10 17:43:15 480

原创 Leetcode SQL会员题【吐血总结~~】第三天

1084. 销售分析 III1097. 游戏玩法分析 V1098. 小众书籍1107. 每日新用户统计1112. 每位学生的最高成绩1113. 报告的记录1126. 查询活跃业务1127. 用户购买平台1132. 报告的记录 II1141. 查询近30天活跃用户数1142. 过去30天的用户活动 II1148. 文章浏览 I1149. 文章浏览 II1158. 市场分析 I1159. 市场分析 II1164. 指定日期的产品价格1173. 即时食物配送 I1174. 即时食

2022-04-08 09:58:26 4613 1

原创 Leetcode SQL会员题【吐血总结~~】第二天

Leetcode SQL会员题【吐血总结~~】第二天

2022-03-26 19:48:32 509

原创 Leetcode SQL会员题【吐血总结~~】第一天

SQL会员题汇总

2022-03-22 09:39:38 5081 3

原创易混淆的栈，单向队列，双向队列的常用方法

java中使用栈和队列的一些常用方法

2022-01-29 11:05:16 319

原创【大数据开发必看】shell脚本的常用语法

大数据开发也要掌握的一些shell脚本的基本写法

2022-01-28 10:38:10 1715

原创【10天刷题计划】阿里巴巴常考面试算法题（一）

阿里巴巴常考的面试算法题，比如LRT缓存机制，无重复字符的最长子串，比较版本号等......

2022-01-09 22:42:11 934 1

原创【知识图谱解耦系列】DisenE: Disentangling Knowledge Graph Embeddings

DisenE: Disentangling Knowledge Graph Embeddings论文来源：未知论文地址：https://arxiv.org/pdf/2010.14730v1.pdf代码地址：https://github.com/1599144219/DisenE1. argue的问题目前的知识图谱嵌入方法学习到的表示都是不可解释的2. motivation的来源实体携带了丰富的信息，这应该被划分为多个组件不同的关系对实体的表示有不同的影响3. contribu

2021-08-03 09:20:26 616 1

原创牛客SQL【常见面试手撕SQL】

笔试题66：牛客每个人最近的登录日期(一)详细描述：请你写出一个sql语句查询每个用户最近一天登录的日子，并且按照user_id升序排序解题思路按照userid进行分组，取最大的登录时间源代码select user_id, max(date)from logingroup by user_idorder by user_id笔试题67：牛客每个人最近的登录日期(二)详细描述：请你写出一个sql语句查询每个用户最近一天登录的日子，用户的名字，以及用户用的设备的名字，并且查询结果

2021-07-14 08:39:29 1228 1

原创【大数据开发】安装Hue踩的坑

在编译的时候的第一个错误：执行以下命令就解决了：wget https://repo.mysql.com/yum/mysql-5.6-community/el/7/x86_64/mysql-community-devel-5.6.42-2.el7.x86_64.rpmrpm -ivh mysql-community-devel-5.6.42-2.el7.x86_64.rpm第二个错误是发生在第一次启动hue的时候执行以下命令就解决了：useradd hue;第三个错误是打开..

2021-06-20 22:08:01 308 2

原创【剑指offer】面试题集锦

数据结构数组字符串链表树栈和队列算法

2021-06-20 09:55:40 147

原创【剑指offer】栈和队列

栈和队列面试题9：用两个栈实现队列解题思路我们可以举一个实际的例子进行分析，记住栈是先进后出，队列是先进先出的规则；首先初始化两个栈stack1和stack2（打算先将元素入栈stack1，然后再出栈到stack2），如果stack2不为空，那么删除队列头就等于弹出stack2的栈顶元素，如果stack2为空，那么就把stack1的元素逐个弹出并压入stack2中；插入到队列的尾部就可以直接插入到stack1。总结：第一个栈支持插入操作，第二个栈支持删除操作源代码class CQueu

2021-06-20 09:52:13 82

原创【剑指offer】树

树面试题7：重建二叉树【**】解题思路通过前序遍历可以找到二叉树的根节点，直接在中序遍历中定位根节点，我们又可以知道左子树和右子树的长度，直接在前序遍历中定位左子树和右子树的位置【左右索引】，接下来就是递归的过程了源代码HashMap<Integer, Integer> map = new HashMap<Integer, Integer>(); // 建立一个map，提高根节点定位的效率int[] preorder; // 保留先序遍历的值，递归的时候需要使用

2021-06-20 09:50:53 79

原创【剑指offer】链表

链表面试题6：从尾到头打印链表解题思路解法1：我首先想到的就是先遍历链表，然后先存入到一个list中，然后再遍历list，对空的数组进行反向赋值。解法2：官方是利用的栈的存储方式，因为栈的特点就是后进先出。从链表的头节点开始，依次将每个节点压入栈内，全部入栈后，依次弹出栈内的元素并存储到数组中。源代码解法1：public int[] reversePrint(ListNode head) { ArrayList<Integer> list = new ArrayL

2021-06-20 09:49:28 82

原创【剑指offer】字符串

字符串面试题5：替换空格解题思路由于java中的字符串被设计成不可变类型，因此无法修改字符串中的某一位字符，如果想实现替换空格，那么必须新建一个字符串。具体做法：利用StringBuilder类来新建一个字符串用于存放最终输出的结果。源代码class Solution { public String replaceSpace(String s) { StringBuilder sb = new StringBuilder(); for (char c

2021-06-20 09:48:28 87

原创【剑指offer】数组

数组面试题3：数组中重复的数字解题思路第一种方法：我看到这个题目首先想到的方法是先排序，然后遍历这个数组，如果前一个数字等于后面一个数字，那么就存在重复的数字！时间复杂度O(nlogn)第二种方法：这个题目是在找重复的数字，哈希表的特性就是存储无重复的元素，于是我们可以考虑利用这个去存储数组中的所有元素，具体做法是遍历数组，判断该数字是否在哈希表中，在的话就直接返回，不在的话加入哈希表中。（这是一种以空间换时间的常用做法）时间复杂度O(n) 空间复杂度O(n)第三种方法：原地交换，这

2021-06-20 09:46:35 97

原创【牛客网】SQL篇（SQL1~SQL17）

面试题1：查找最晚入职员工的所有信息解题思路最晚入职员工，很明显是要按照hire_date字段进行排序，并且逆序，取第一个（limit）源代码select * from employees order by hire_date desc limit 1;面试题2：查找入职员工时间排名倒数第三的员工所有信息解题思路可以利用limit取到前三名，然后再从前三名中取出最后一名源代码解法1：select * from (select * from employees order

2021-06-18 16:47:08 317

原创【大数据开发必看】ELK入门及实战

ELK 学习笔记很多人不知道ELK是什么，先说一下ELK指什么，E表示Elasticsearch，L表示Logstash，K表示Kibana在发展的过程中，又有了Beats的加入，这个时候就不再使用ELK去命名，而是Elastic Stack先简单介绍一下他们的作用分别是什么，这样我们才能知道为什么要学习这些技术Elasticsearch：分布式搜索引擎，还有存储数据Logstash：收集日志，分析和处理日志Kibana：提供web页面，展示数据分析的结果Beats：数据采集，它出现之

2021-05-27 15:56:38 1214

原创微信大数据推荐算法比赛

2021中国高校计算机大赛-微信大数据挑战赛Baseline本次比赛基于脱敏和采样后的数据信息，对于给定的一定数量到访过微信视频号“热门推荐”的用户，根据这些用户在视频号内的历史n天的行为数据，通过算法在测试集上预测出这些用户对于不同视频内容的互动行为（包括点赞、点击头像、收藏、转发等）的发生概率。本次比赛以多个行为预测结果的加权uAUC值进行评分。大赛官方网站：https://algo.weixin.qq.com/1. 环境配置pandas>=1.0.5tensorflow>=1.

2021-05-21 09:06:38 1856 1

原创【大数据开发必看】CDH版本的大数据集群搭建

CDH版本的大数据集群1. CDH和ClouderaManager简介1.1 CDH版本的集群和Apache版本对比apache版本：优点：开源，更新快缺点：部署过程复杂（组件版本的兼容性）这里有一个实际的例子可以列举，在学习HBase的时候，当时想要将数据读到Hive中，在这两个版本之间的兼容上十分麻烦；没有统一化管理界面；cdh版本：优点：统一化的可视化管理界面；部署过程简单缺点：CM的server和agent需要占用额外的内存和cpu1.2 CDH介绍CDH是

2021-05-19 14:59:14 534 1

原创 Baseline 【CCKS 2021：表型-药物-分子多层次知识图谱的链接预测】

CCKS 2021：表型-药物-分子多层次知识图谱的链接预测1. 数据集介绍（不包括测试集）schema.json：包含的是所有的实体类型（6种），以及所有的关系类型（7种）{ "entity_type": ["disease","drug","symptom","gene/protein", "gene_ontology","pathway"], "relationships": [ ["disease","associated_with","symptom"

2021-05-16 19:07:33 698 2

原创 TuckER:Tensor Factorization for Knowledge Graph Completion

TuckER: Tensor Factorization for Knowledge Graph Completion论文来源：ICML2019论文链接：https://arxiv.org/abs/1901.09590代码链接：https://github.com/ibalazevic/TuckER总结：这篇文章利用了一个高级的公式，可能很多人看到这个公式就怕了，确实如此，我看到这个公式就晕了，不知道其中的具体含义，其实如果你实在搞不懂具体的意思，也可以忽略，大致理解作者的想法就行了，我是在看

2021-04-30 08:14:55 1426 1

原创【图神经网络之神器】torch_geometric

GCN/GraphSAGE/GAT代码导包import torchimport torch.nn.functional as Ffrom torch_geometric.nn import GCNConv, SAGEConv, GATConvfrom torch_geometric.datasets import Planetoid导入数据集dataset = Planetoid(root='./tmp/Cora', name='Cora')print(dataset.num_no

2021-04-04 16:29:47 7027 1

原创【爆火的图神经网络模型】GCN/GraphSAGE/GAT

Graph Network1. GCN节点特征的更新公式：H(l+1)=σ(D~−12A~D~−12H(l)W(l))H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right)H(l+1)=σ(D~−21A~D~−21H(l)W(l))其中 D~\tilde{D}D~相当于加上了自环后的度矩阵，A~\tilde{A}A~相当于加上了自环后的

2021-04-04 10:24:41 1479

原创【含推荐算法源码实现】推荐系统入门

推荐系统1 推荐系统概述1.1 推荐系统的目的让用户更快更好的获取到自己需要的内容让内容更快更好的推送到喜欢它的用户手中让网站（平台）更有效的保留用户资源1.2 推荐系统的应用个性化音乐电子商务电影视频社交网络位置服务…1.3 推荐系统的基本思想利用用户和物品的特征信息，给用户推荐那些具有用户喜欢的特征的物品。利用用户喜欢过的物品，给用户推荐与他喜欢过的物品相似的物品。利用和用户相似的其他用户，给用户推荐那些和他们兴趣爱好相似的其他用户喜欢的物品。1.4 推荐系统

2021-03-30 08:25:21 1776

原创【大数据开发必看】项目一电信客服

电信客服需求: 统计每天、每月以及每年的每个人的通话次数及时长项目架构：生产数据（ProduceLog）随机生成电话号（主被叫）随机生成通话建立时间随机生成通话时长（30min内）生成日志写入文件，2条/sflume（exec-kafka）Source:exec，监听生成数据Channel:MemoryChannelSink:KafkaSinkkafka（消息队列）控制台消费者测试IDEA消费者直接打印数据HBase（消费数据存储）HBaseUtil（

2021-03-23 09:01:41 990

原创【大数据开发必看】Java IO流

此部分的代码演示全部在day12文件夹中第一章 Lambda表达式1.1 函数式编程思想概述面向对象的思想：做一件事，找一个能解决这个事情的对象，调用对象的方法，完成事情函数式编程思想：只要能获取到结果，怎么做的都不重要，重视的是结果，不重视过程简单的说，面向对象强调必须通过对象的形式来做事情；函数式思想强调做什么，而不是以什么形式做1.2 Lambda表达式格式由三部分组成：一些参数、一个箭头、一段代码格式：(参数列表) -> { 一些重写方法的代码 }1.2.1 练习.

2021-03-23 08:04:47 87

空空如也

空空如也