hadoop面试题
hadoop面试题
披星戴月的蝈蝈
这个作者很懒,什么都没留下…
展开
-
SecondaryNameNode的作用
原理图。原创 2024-05-04 21:08:47 · 115 阅读 · 0 评论 -
hdfs的读写流程
1、客户端向NameNode发起上传请求2、NameNode进行权限检查,如果没有问题,返回可以上传通知3、客户端将文件切分多个block,并上传第一个block,NameNode返回主机列表4、客户端开始和对应的主机建立关联,开始上传第一个block及它的副本5、上传完第一个之后,接着上传剩余的block及副本,上传完成之后,由NameNode更新元数据。原创 2024-05-04 21:05:33 · 217 阅读 · 0 评论 -
分区表和分桶表区别
不建议直接上传文件在hdfs表根路径下: 分区表直接不能识别对应文件中数据,因为分区表会找分区目录下的数据文件。在hdfs表目录或者分区目录下,分成多个分桶文件(000000_0,000001_0,000002_0…不建议直接上传文件在hdfs表根路径下: 分桶表可以识别对应文件中数据,但是并没有分桶效果,也是不建议的。在hfds表目录下,分成多个分区目录(year=xxxx,month=xx,day=xx)使用分区字段作为条件的时候,底层直接找到对应的分区目录,能够避免全表扫描,提升查询效率。原创 2024-04-13 20:48:33 · 535 阅读 · 0 评论 -
数据仓库与数据库的区别
数据库设计是尽量避免冗余,一般针对某一业务应用进行设计,比如一张简单的User表,记录用户名、密码等简单数据即可,符合业务应用,但是不符合分析。数据仓库在设计是有意引入冗余,依照分析需求,分析维度、分析指标进行设计。OLAP(On-Line Analytical Processing):叫联机分析处理,一般针对某些主题的历史数据进行分析 主要面向分析,支持管理决策。数据库是为捕获数据而设计,数据仓库是为分析数据而设计。数据库是面向事务的设计,数据仓库是面向主题设计的。数据仓库的出现,并不是要取代数据库。原创 2024-04-13 11:31:47 · 118 阅读 · 0 评论 -
Hive的特点以及Hive和RDBMS异同
其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析,但是Hive不支持实时查询。并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,Hive和RDBMS异同## 标题。HIVE特点## 标题。原创 2024-04-13 10:24:03 · 274 阅读 · 1 评论 -
内部表和外部表的区别
未被external关键字修饰的即是内部表, 即普通表。内部表又称管理表,还可以叫托管表。被external关键字修饰的即是外部表, 即关联表。还可以叫非管理表或非托管表。删除外部表:仅仅是删除元数据(metadata),不会删除存储数据本身。删除内部表:直接删除元数据(metadata)和存储数据本身。外部表类型: EXTERNAL_TABLE。内部表类型: MANAGED_TABLE。原创 2024-04-12 21:18:06 · 326 阅读 · 0 评论