![](https://img-blog.csdnimg.cn/5415792fb46c42b7a36c9e8c824d6ae7.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据面试知识点
文章平均质量分 95
大数据面试知识点
拉格朗日(Lagrange)
拉格朗日中值定理
展开
-
数据开发流程及规范
P0 :1.全局问题,影响所有用户,例如系统必现崩溃,主要功能不可用,严重影响用户正常交易。2.涉及到用户资金损失的问题。解决时间:2小时内。反馈时间:0.5小时。反馈方式:comments自动邮件方式+即时通信:例如QQ\微信\钉钉\电话P1:1.全局问题,影响所有用户,例如系统次要功能不可用,系统偶现崩溃且崩溃率超过50%。2.局部问题,影响超过20%的用户,例如系统主要功能不可用,系统必现崩溃。解决时间:待定不过夜。反馈时间:1小时。...原创 2022-08-15 10:10:15 · 2774 阅读 · 0 评论 -
数仓中指标-标签,维度-度量,自然键-代理键,数据集市等各名词解析及关系
作为一个数据人,是不是经常被各种名词围绕,是不是对其中很多概念认知模糊。有些词虽然只有一字之差,但是它们意思完全不同,今天我们就来了解下数仓建设及数据分析时常见的一些概念含义及它们之间的关系。本文结构如下图所示:实体是指依附的主体,就是我们分析的一个对象,比如我们分析商品的销售情况,如华为手机近半年的销售量是多少,那华为手机就是一个实体;我们分析用户的活跃度,用户就是一个实体。当然实体也可以现实中不存在的,比如虚拟的业务对象,活动,会员等都可看做一个实体。维度就是看待问题的角度,分析业务数据,从什么角度分析原创 2022-08-09 08:30:00 · 1862 阅读 · 0 评论 -
数据仓库建设规范
中间表一般出现在Job中,是Job中临时存储的中间数据的表,中间表的作用域只限于当前Job执行过程中,Job一旦执行完成,该中间表的使命就完成了,是可以删除的(按照自己公司的场景自由选择,以前公司会保留几天的中间表数据,用来排查问题)。ODS层,是最接近数据源中数据的一层,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,至于数据的去噪、去重、异常值处理等过程可以放在后面的DWD层来做。又称数据集市或宽表。...原创 2022-07-19 09:30:00 · 2910 阅读 · 1 评论 -
大数据知识面试题-Flume(2022版)
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume组成架构如图1-1,图1-2所示:图1-1 Flume组成架构图1-2 Flume组成架构详解下面我们来详细介绍一下Flume架构中的组件。Agent是一个JVM进程,它以事件的形式将数据从源头送至目的,是Flume数据传输的基本单元。Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据,包括avro、t原创 2022-06-21 09:00:00 · 1482 阅读 · 0 评论 -
大数据知识面试题-Sqoop(2022版)
sqoop是apache旗下一款**“Hadoop和关系数据库服务器之间传送数据”**的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;**导出数据:**从Hadoop的文件系统中导出数据到关系数据库mysql等将导入或导出命令翻译成mapreduce程序来实现在翻译出的mapreduce中主要是对inputformat和outputformat进行定制mysql导入到hive从hdfs导出到mysql1.2.2、sqoop中文原创 2022-06-27 09:30:00 · 1652 阅读 · 0 评论 -
大数据知识面试题-Azkaban(2022版)
Azkaban 是由Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流 内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 key:value 对的方式, 通 过配置中的 Dependencies 来设置依赖关系。Azkaban 使用job 配置文件建立任务之间的依赖 关系, 并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。(1) 一个完整的数据分析系统通常都是由大量任务单元组成:Shell 脚本程序,Java 程序,MapReduce 程序、 Hive 脚本原创 2022-06-23 09:00:00 · 1274 阅读 · 0 评论 -
大数据知识面试题-Scala (2022版)
scala是运行在上的多范式编程语言,同时支持面向对象和面向函数式编程。要启动scala解释器,只需要以下几步:在scala中,可以使用或者来定义变量,语法格式如下:其中问题:val 和 var修饰的变量有什么区别?scala提供多种定义字符串的方式,将来我们可以根据需要来选择最方便的定义方式。使用双引号使用插值表达式使用三引号注意下 scala类型与Java的区别条件表达式就是if表达式,if表达式可以根据给定的条件是否满足,根据条件的结果(真或假)决定执行对应的操作。scala条件原创 2022-06-29 09:00:00 · 1275 阅读 · 0 评论 -
大数据知识面试题-Kafka(2022版)
kafka是最初由linkedin公司开发的,使用scala语言编写,kafka是一个分布式,分区的,多副本的,多订阅者的消息队列系统。 常见的消息队列:RabbitMQ,Redis ,zeroMQ ,ActiveMQkafka的优势:Broker:kafka集群中包含一个或者多个服务实例,这种服务实例被称为BrokerTopic:每条发布到kafka集群的消息都有一个类别,这个类别就叫做TopicPartition:Partition是一个物理上的概念,每个Topic包含一个或者多个Partitio原创 2022-06-16 10:00:00 · 4519 阅读 · 0 评论 -
大数据知识面试题-Flink(2022版)
Flink是一个面向流处理和批处理的分布式数据计算引擎,能够基于同一个Flink 运行,可以提供流处理和批处理两种类型的功能。 在 Flink 的世界观中,一切都是由流组成的,离线数据是有界的流;实时数据是一个没有界限的流:这就是所谓的有界流和无界流。Flink可以完全独立于Hadoop,在不依赖Hadoop组件下运行。但是做为大数据的基础设施,Hadoop体系是任何大数据框架都绕不过去的。Flink可以集成众多 Hadooop 组件,例如Yarn、Hbase、HDFS等等。例如,Flink可以和Yarn集原创 2022-06-13 09:45:00 · 4015 阅读 · 0 评论 -
大数据知识面试题-Spark(2022版)
Apache Spark是用于大规模数据处理的统一分析计算引擎Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量硬件之上,形成集群。 尽管Spark相对于Hadoop而言具有较大优势,但Spark并不能完全替代Hadoop,Spark主要用于替代Hadoop中的MapReduce计算模型。存储依然可以使用HDFS,但是中间结果可以存放在内存中;调度可以使用Spark内置的,也可以使用更成熟的调度系统YARN等 实际上,Spark已原创 2022-06-09 10:00:00 · 5506 阅读 · 0 评论 -
大数据知识面试题-Hbase(2022版)
功能:2、RegionServer功能:1.2、常用HBASE shell1、进入HBase客户端命令操作界面$ bin/hbase shellhbase(main):001:0> helphbase(main):002:0> list创建user表,包含info、data两个列族5、添加数据操作向user表中插入信息,row key为rk0001,列族info中添加name列标示符,值为zhangsanhbase(main):011:0> put ‘user’, ‘rk0001’, ‘i原创 2022-06-08 09:32:07 · 2286 阅读 · 0 评论 -
大数据知识面试题-Hive (2022版)
Hive中所有的数据都存储在HDFS中,没有专门的数据存储格式在创建表时指定数据中的分隔符,Hive 就可以映射成功,解析数据。Hive中包含以下数据模型:**db:**在hdfs中表现为hive.metastore.warehouse.dir目录下一个文件夹**table:**在hdfs中表现所属db目录下一个文件夹**external table:**数据存放位置可以在HDFS任意指定路径**partition:**在hdfs中表现为table目录下的子目录**bucket:**在hdfs中表现为同一个原创 2022-06-07 11:00:00 · 4861 阅读 · 0 评论 -
大数据知识面试题-MapReduce和YARN(2022版)
序列号内容链接1大数据知识面试题-通用(2022版)待续…2大数据知识面试题-Hadoop(2022版)待续…3大数据知识面试题-MapReduce和yarn(2022版)待续…4大数据知识面试题-Zookeepr (2022版)待续…5大数据知识面试题-Hive (2022版)待续…6大数据知识面试题-Flume(2022版)待续…7大数据知识面试题-Hbase(2022版)待续…8大数据知识面试题-sqoop(....原创 2022-05-25 19:14:59 · 4371 阅读 · 0 评论 -
大数据知识面试题-Hadoop(2022版)
序列号内容链接1大数据知识面试题-通用(2022版)待续…2大数据知识面试题-Hadoop(2022版)待续…3大数据知识面试题-MapReduce和yarn(2022版)待续…4大数据知识面试题-Zookeepr (2022版)待续…5大数据知识面试题-Hive (2022版)待续…6大数据知识面试题-Flume(2022版)待续…7大数据知识面试题-Hbase(2022版)待续…8大数据知识面试题-sqoop(....原创 2022-05-18 15:22:30 · 10126 阅读 · 3 评论 -
大数据知识面试题-通用(2022版)
序列号内容链接1大数据知识面试题-通用(2022版)待续…2大数据知识面试题-Hadoop(2022版)待续…3大数据知识面试题-MapReduce和yarn(2022版)待续…4大数据知识面试题-Zookeepr (2022版)待续…5大数据知识面试题-Hive (2022版)待续…6大数据知识面试题-Flume(2022版)待续…7大数据知识面试题-Hbase(2022版)待续…8大数据知识面试题-sqoop(....原创 2022-05-17 15:09:53 · 24443 阅读 · 7 评论