![](https://img-blog.csdnimg.cn/20190927151026427.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据面试题
文章平均质量分 93
夏木夕
这个作者很懒,什么都没留下…
展开
-
大数据面试题 —— Hive
(1)承UDF或者UDAF或者UDTF,实现特定的方法;(2)打成jar包,上传到服务器(3)执行命令add jar路径,目的是将 jar 包添加到 hive 中create temporary function 函数名 as "自定义函数全类名"(5)在select中使用 UDF 函数。原创 2024-05-19 14:54:20 · 1515 阅读 · 0 评论 -
大数据面试题 —— 数据仓库
3)从管理层面上来说,数据仓库是构建在公司各个业务系统之上,它是一面镜子,很多时候它能反映出业务系统的问题,所以需要管理层的支持和约束,比如通过第一条说的事后自动检验机制反映出业务系统的维护错误,需要相应的业务系统维护人员及时处理。实现原理:在需要聚合的key前加一个随机数的前后缀,这样就能得到非常均匀的key,然后按这个加工之后的key进行第一次聚合之后,接着去除掉随机前缀,再次进行全局聚合,就可以得到最终的结果。聚合是指将数据按照某个维度进行汇总,并计算相应的聚合指标,比如总计、平均值、最大值等等。原创 2024-05-09 18:38:28 · 696 阅读 · 0 评论 -
大数据面试题 —— 数据库
这是因为在OR条件中,如果其中一个条件的选择性很低,即满足该条件的记录数量很大,而另一个条件的选择性较高,即满足该条件的记录数量较少,数据库引擎可能会选择放弃使用索引,而进行全表扫描,以避免在索引中进行大量的随机访问,从而导致性能下降。(1)视图是外模式(也称为用户模式或者子模式,是用户或者应用程序所见到的数据库的逻辑结构),表是内模式(也称为存储模式或物理模式,是数据库的物理结构的描述);索引是一种帮助mysql提高查询效率的数据结构,通常是基于一个或多个列创建的,就像是书的目录一样。原创 2024-05-09 18:37:23 · 1146 阅读 · 0 评论 -
大数据面试题 —— Spark数据倾斜及其解决方案
有的时候,我们可能会遇到大数据计算中一个最棘手的问题 ——数据倾斜,此时 Spark 作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据倾斜问题,以保证 Spark 作业的性能。原创 2024-04-27 13:51:16 · 1674 阅读 · 1 评论 -
大数据面试题 —— Kafka
Kafka是由 Apache 开发的一个分布式的基于发布订阅模式的消息队列,主要应用于大数据的实时处理领域。原创 2024-03-19 19:35:23 · 1503 阅读 · 0 评论 -
大数据面试题 —— Flume
可以从以下几个方面回答,每一个方面又可以当做一个面试题(1)Flume 是什么?Flume 是 Cloudera 公司提供的一个高可用的高可靠的分布式的海量日志采集聚合和传输的系统。Flume 的设计原理是基于数据流(流式架构,灵活简单),其最主要的作用是实时读取服务器本地磁盘的数据,将数据写入HDFS 或 Kafka等。(2)Flume 文件目录Flume 主要的文件目录如下:(3)Flume 的 Agent 组件。原创 2024-03-19 15:46:42 · 1281 阅读 · 0 评论 -
大数据面试题 —— HBase
HBase 是一种分布式可扩展支持海量数据存储的NoSQL数据库,支持对大数据进行随机、实时的读/写访问。原创 2024-03-19 13:21:21 · 1229 阅读 · 0 评论 -
大数据面试题 —— Zookeeper
总的来说,Zookeeper 是一个开源的分布式的,为分布式应用提供协调服务的 Apache 项目。具体来说,Zookeeper是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper 就负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应。Zookeeper = 文件系统 + 通知机制。Consistency(一致性)用户在访问分布式系统中的任意节点,得到的数据必须一致。原创 2024-03-18 19:23:10 · 1498 阅读 · 0 评论