Hadoop
哈士奇说喵
我的目标是星辰大海啊~
展开
-
SparkSql中时间阈操作【窗口函数】
本文主要总结了一些sql在时间阈上的操作,包括连续消费,最长签到,累计消费等问题,其实映射到其他业务场景也就变成了类似的计算;如游戏领域,连续登陆时间,连续签到时长,最大连续签到天数等常见的业务场景;方法都是共通的,这里就用sparksql来实现一些方法,hivesql的话有部分代码可能需要略微修改,比如having这种需要外面再套一层改成where等等就不再赘述构造数据进行测试为了比较好切割,我就用@进行拼凑了,第一个是日期,第二个是用户,第三个是否消费,第四个为消费金额20190531@156.原创 2020-06-17 15:01:14 · 1737 阅读 · 1 评论 -
解决:提交的hive任务如何找回其提交的语句
只记得表名或者该任务的一些关键字,忘记了自己创建表时候的语句,可以从hive的执行日志中获取原始数据。特别适合定位该测试表是怎么创建的,或者定位别人表创建的由来首先要确认提交的hive任务是在哪一台服务器提交的,一般默认hive的执行日志会放在提交任务的机器的/data/hive/tmp/{用户名}目录下首先需要切换到root用户,然后切到根目录,不清楚目录结构的请看:Linux...原创 2018-08-26 15:19:02 · 1572 阅读 · 0 评论 -
笔记:新手的Hive指南
前言 算是对在滴滴实习的这段时间Hive的笔记吧,回学校也有段时间了,应该整理整理了,肯定不会巨细无遗,作为一种学习记录或者入门指南吧基础SQL基本语法Python基础语法(HiveStreaming会用到)Java基础语法(写UDF会用到)Hadoop基础(毕竟mapred过程)什么是Hive? hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据原创 2017-07-09 21:37:43 · 8317 阅读 · 1 评论 -
总结:详细讲解MapReduce过程(整理补充)
关于整理 此文百分之七十摘自我认为讲的很清楚的博客,我都贴了地址,很感谢这些博主的无私奉献!我再将一些自己的实例代码和知识点的补充加入进去,希望能更好的理解mapreduce的整个过程。从启动和资源调度来看MapReduce过程首先-先了解一下必知概念 From:MapReduce工作原理图文详解,JobTracker和TaskTracker概述客户端(Client):编写mapreduc原创 2017-08-06 17:05:16 · 27360 阅读 · 6 评论 -
总结:Spark性能优化上的一些总结
Spark性能调优 整理来自于: Spark性能优化指南——基础篇 会增加: 一些其他博客的内容 自己的理解和pyspark代码的补充实践 开发调优 Spark性能优化的第一步,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。开发调优,就是要让大家了解以下一些Spark基本开发原则,包括:RDD lineage设原创 2017-08-13 10:33:58 · 2421 阅读 · 0 评论 -
总结:Hive,Hive on Spark和SparkSQL区别
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的Hive指南,至于还有兴趣看Hive优化方法可以看看我总结的这篇Hive性能优化上的一些总结Hive on Mapreduce执行流程 执行流程详细解析Step 1:UI(user interface) 调用 executeQuery 接口,发送 H原创 2017-08-04 22:36:07 · 44819 阅读 · 1 评论 -
笔记:新手的Spark指南
macOS Sierra 10.12.4Spark 1.6.2Python 2.7转载请注明出处:前言 既然做了Hive的整理,那就把spark的也整理下吧,当做入门指南和自己的笔记吧~与君共勉Spark基础Spark是什么? Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。如果你熟悉Hadoop,那么你知道分布式计算框架要解决两个问题:如何原创 2017-07-25 17:21:43 · 2206 阅读 · 1 评论 -
Spark日志清洗一般流程
spark 1.6.1 python 2.7.11前言 整理了一下使用spark来进行日志清洗及数据处理的套路,这里以pyspark为例pyspark的启动任务套路 对于使用spark作为查询清洗工具而言,启动spark的套路主要使用sh文件进行终端带参数启动,启动后开始调用sh传递处理参数,并且构造好sparkconf后传递提交(spark-submit) python文件,当然最主要原创 2017-05-14 20:16:33 · 5112 阅读 · 0 评论 -
解决:MacOS下配置Hadoop及Hive单机遇到的问题(们)
MacOS Sierra 10.12.1 Hadoop 2.7.3 Hive 1.2.1前言 本来安逸搞个local 的spark算了,但是过几天我还要搞个网易云音乐的大新闻,没有hive不得劲,遂装,期间遇到的问题,一一记录安装 基础安装,先照这个来吧,反正肯定不会一次成功,科科,还可以自己百度,很多很多的@jeetpan–Mac 系统安装Hadoop 2.7.3问题 这才是重原创 2017-06-29 16:58:09 · 1166 阅读 · 0 评论 -
Hadoop概论浅学
Hadoop生态圈 可以把hadoop想象成一个很大的生态圈(本来就是),或者说想象成一个动物园吧,之后的东西就比较好理解了。(我也不知道为啥python的教程一般都是动物做封面,难道已经暗喻加入了动物园生态圈了?)HDFS HDFS(Hadoop Distributed File System)是一个分布式文件系统,是谷歌的GFS山寨版本。它具有高容错性并提供了高吞吐量的数据访问,非常适原创 2016-12-03 13:58:35 · 1409 阅读 · 0 评论