大数据总结
总结大数据面试知识点,提高自己,分享知识,持续更新
踩大侠
提高自己,与各位共同进步
坚持每周更新
展开
-
【大数据基础-数据仓库-05】HIVE基础知识考查
HIVE的架构图HIVE提交SQL之后的执行过程通过客户端提交查询dirver接收到查询,会创建session handle,并将该查询传递给编译器,生成逻辑执行计划编译器会向metastore发送获取元数据的请求metastore向编译器发送元数据,编译器使用元数据执行类型检查和语义分析。编译器会生成执行计划(DAG),对于MapReduce作业而言,执行计划包括map operator trees和reduce operator tree编译器向Driver发送生成的物理执行原创 2020-08-13 17:04:26 · 318 阅读 · 0 评论 -
【大数据基础-数据仓库-04】常用窗口函数考察
浅谈hive常用窗口函数目录浅谈hive常用窗口函数简介常用窗口函数overSUM,AVG,MIN,MAX简介窗口函数又名开窗函数,属于分析函数的一种,用于解决复杂报表统计需求的功能强大的函数。窗口函数用来计算基于组的某种聚合值,它和聚合函数的不同之处是:对于每个组返回多行,而聚合函数对于每个组只返回一行。开窗函数指定了分析函数工作的数据窗口大小,这个数据窗口大小可能会随着行的变化而变化。常用窗口函数overover() 通常与聚合函数共同使用,比如 coun原创 2020-05-09 15:43:30 · 606 阅读 · 0 评论 -
【大数据基础-数据仓库-03】常用hivesql udf考察
目录explodelateral view explod说明,关于内置的hive的udf函数使用,建议直接参考hive 官方wiki https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-explode(array)explodeexplode() takes in an array (or a map) as an input and outputs the eleme原创 2020-08-11 10:35:11 · 201 阅读 · 0 评论 -
【大数据基础-数据仓库-02】HIVE/SPARK SQL优化
JOIN优化--代码片段1select a.s_no from student_orc_partition ainner join student_orc_partition_only bon a.s_no=b.s_no and a.part=b.part and a.part>=1 and a.part<=2--代码片段2select a.s_no from student_orc_partition ainner join student_orc_partition原创 2020-08-10 17:47:24 · 156 阅读 · 0 评论 -
【大数据基础hadoop-02】MapReduce相关基础汇总
当我们提交一个mr任务会启用多少个map呢,这个map的数量如何控制呢,如何调整map的数量在调优时我们不希望生成太多的Map,而把计算任务的等待时间都耗费在Map的启动上;或者不希望生成太多的Map对某个文件进行操作,以免引起资源的争用。这时候就需要对Map进行控制。在Hive中配置“set mapred.map.tasks=task数量”无法控制Map的任务数,调节Map任务数需要一套算法,该算法也和InputFormat有密切的关系,具体如下:在默认情况下Map的个数defaultNum=目标原创 2020-08-07 17:21:01 · 327 阅读 · 0 评论 -
【大数据基础-数据仓库-01】数据分析-拉链表hive拉链表与拉链表简单实现
hive拉链表拉链表优缺点节省空间,尤其是数据量很大的时候;对于订单事务性的数据,查看历史操作记录非常方便,比如说需要查看某一个时间点或者时间段的历史快照信息,查看某一个订单在历史某一个时间点的状态,查看某一个用户在过去某一段时间内,更新过几次等等不过仅适合基于历史数据更新频率比较低的场景,如果每天1000w订单,每天更新1000次以上Demo尝试与实现做一个订单分析的拉链表准备订单事务表CREATE TABLE `orders`( `orderid` int,原创 2020-05-08 21:15:24 · 783 阅读 · 1 评论 -
【大数据基础-Hadoop-1】详细分析hdfs读写流程阐述hadoop读写流程
目录读流程写流程在大数据面试过程中hadoop的namenode读写流程是经常会问到的问题读流程访问namenode,告知要访问的文件hdfs对client做身份信息验证,认证的方式有两种,一种是通过信任的客户端,由其指定用户名;第二种是通过诸如kerboers的强认证机制检查文件的所有者以及其设定的访问权限,如果文件存在,且该用户对其有访问权限此时namenode 会告诉hdfs客户端这个文件的第一个数据块的标识以及保存该数据块的datanode列表,此列表根据client原创 2020-08-07 16:40:34 · 254 阅读 · 0 评论 -
【大数据基础-java基础-1】java集合基础知识点java集合比较
目录概览ListArrayListVectorLinkedListSETHashSetTreeSetMAPHashMapConcurrentHashMap概览Java的集合类被定义在Java.util包中,主要有 4种集合,分别为List、Queue、Set和Map,每种集合的具体分类如图List有序的collection,主要有三个实现类分别为ArrayList,Vector,LinkedListArrayList基于数组实现,.原创 2020-08-07 16:10:01 · 263 阅读 · 0 评论