![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
geekingLi
now or never
展开
-
使用嵌套子查询优化hive多连接查询
在工作中,常用到left join来关联其他hive表进行查询,并且每个表都有相应的where条件。在数据量大的情况下,不同连接条件所在的位置对查询效率的影响还是很大的。下面举一些例子:现在有三个表,它们分别是:表一:user_info字段名 类型 备注 imei bigint type string date string 分区列...原创 2019-02-20 01:02:24 · 4916 阅读 · 0 评论 -
大数据知识宝典(Hadoop篇之MapReduce)
注:本文主要摘录于尚硅谷大数据的学习资料,仅作学习记录,请勿用于商业用途。MapReduceHadoop 序列化 1 为什么要序列化? 一般来说,“活的”对象只生存在内存里,关机断电就没有了。而且“活的”对象只能 由本地的进程使用,不能被发送到网络上的另外一台计算机。 然而序列化可以存储“活的” 对象,可以将“活的”对象发送到远程计算机。 2 什么是序列化? 序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持 久化)和网络传输。 反序列化就是原创 2020-09-21 23:32:20 · 191 阅读 · 0 评论 -
大数据知识宝典(Hadoop篇之HDFS)
注:本文主要摘录于尚硅谷大数据的学习资料,仅作学习记录,请勿用于商业用途。HDFSHDFS 写数据流程:1)客户端通过 Distributed FileSystem 模块向 namenode 请求上传文件,namenode 检查目标 文件是否已存在,父目录是否存在。 2)namenode 返回是否可以上传。 3)客户端请求第一个 block 上传到哪几个 datanode 服务器上。 4)namenode 返回 3 个 datanode 节点,分别为 dn1、dn..原创 2020-09-21 22:14:19 · 128 阅读 · 0 评论 -
大数据知识宝典(Spark篇之shuffle过程)
注:本文主要摘录于尚硅谷大数据的学习资料,仅作学习记录,请勿用于商业用途。Spark shuffle过程HashShuffle过程介绍Spark丰富了任务类型,有些任务之间数据流转不需要通过Shuffle,但是有些任务之间还是需要通过Shuffle来传递数据,比如wide dependency的group by key。Spark中需要Shuffle输出的Map任务会为每个Reduce创建对应的bucket,Map产生的结果会根据设置的partitioner得到对应的bucketId,然后填充到原创 2020-09-21 00:27:42 · 686 阅读 · 0 评论 -
大数据知识宝典(Spark篇之RDD)
注:本文主要摘录于尚硅谷大数据的学习资料,仅作学习记录,请勿用于商业用途。Spark部分Spark是一种快速、通用、可扩展的大数据分析引擎,是用Scala进行编写的。Spark的内置项目如下:Spark应用提交一旦打包好,就可以使用bin/spark-submit脚本启动应用了. 这个脚本负责设置spark使用的classpath和依赖,支持不同类型的集群管理器和发布模式:./bin/spark-submit \--class <main-class>...原创 2020-09-20 23:47:06 · 327 阅读 · 0 评论 -
大数据知识宝典(Hive篇)
注:本文主要摘录于尚硅谷大数据的学习资料,仅作学习记录。Hive部分1.Hive 其他命令操作 1)退出 hive 窗口: hive(default)>exit; hive(default)>quit; 在新版的 oracle 中没区别了,在以前的版本是有的: exit:先隐性提交数据,再退出; quit:不提交数据,退出; 2)在 hive cli 命令窗口中如何查看 hdfs 文件系统 hive(default)>dfs -ls /;.原创 2020-09-20 12:32:12 · 221 阅读 · 0 评论