NeumanJiang-CSDN博客

原创 Spark Udaf

//两个重点：如何从input和buffer中取出数据，如何将更改好的数据更新到buffer中！//自定义函数的深入理解和按需自定义，六个方法的作用和执行流程如何package areatop3import org.apache.spark.sql.Rowimport org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}import org.apache....

2021-01-10 19:25:55 108

原创 Hive_语法_连续N天登陆

文章目录Sql方式实现连续N天登陆1.使用lag&lead+datediff窗口函数2.使用date_add函数代码实现思路Sql方式实现连续N天登陆构造测试数据create table dwd.login_log asselect 1 as user_id, "2020-01-01" as login_dateunion allselect 1 as user_id, "2020-01-02" as login_dateunion allselect 1 as user_id,

2021-01-10 19:21:28 492

原创尾递归的那点事

文章目录尾递归的那点事笔记1.栈溢出是什么意思2.什么是递归3.什么是尾递归4.递归的优缺点5.如何优化尾递归的那点事学习就是不断解惑的过程:先找个问题:前几天偶然有人问到一个关于栈溢出的问题，说递归时为什么scala不容易比python出现栈溢出的问题？大概是这个意思，原话记不住了，当时也没多想，只是联想到递归是从上到下的计算流程，所以估计可能是记忆递归不必保存那么多栈帧或者是从下到上的计算流程，今天突然想到这个问题，记录一下。回忆只需要看这里一句话结论:scala编译器会将<尾递归

2021-01-10 19:20:05 163

原创布隆过滤器的那点事

文章目录布隆过滤器-Bloom Filter是什么为什么用它有哪些实践如何使用代码运行结果代码源码分析别人怎么用布隆过滤器-Bloom Filter学习前经典3问，what，why，how；它是什么，为什么用它，怎么用它是什么布隆过滤器是一个节省空间的概率型数据结构。设计目的是为了判断一个元素是否在一个集合中。结果只有两种，1是可能存在，2是一定不存在。参考wiki执行流程前置知识：1.比特数组每一个位置元素只可能是0或者1，而且布隆过滤器将数据结构都私有化，无法外部访问；2.哈希

2021-01-10 19:18:45 155

原创 Shell_工具_awk

文章目录通用公式开始测试结语附录awk常用场景鉴于之前用awk只了解到点皮毛，而且工作中用之甚少，这里准备了解并整理一下awk的用法，尽量保证一个公式覆盖大部分需求通用公式通用公式并不是所有场景都能满足，只是符合awk基础使用的大部分场景awk调用主要包括两种：XXXX | awk.script 或者 awk.script filenameawk.script通用公式如下：awk -F '分隔符(默认\t)' ' BEGIN {print "可定义变量或者打印题头";size=0;}

2021-01-10 19:16:48 84

原创 kafka stream未来可期

文章目录核心知识预热前置概念拓扑使用使用DSL编写单词统计测试代码测试数据打印拓扑主题创建使用Processor编写单词统计测试代码测试数据打印拓扑核心知识预热TIPS1.资料来源说明书以及内部构造2.学习技术就是不断解惑的过程，就kafka stream自问：是个什么技术，能干什么，怎么使用…Kafka Streams是一个数据输入和数据输出都保存在kafka集群的程序和微服务构建的客户端类库，那么就不需要专门去搭建计算集群，方便快捷；Kafka Streams提供两种方法来定义流处理拓

2021-01-10 19:14:14 245

原创 Flume的那点事

文章目录快速了解核心概念网络拓扑如何使用Kafka SourceHDFS Sink结语附录框架学习最值得信赖的资料Flume官网和Flume源码如果觉得纯英文效率比较低的话，也可以搜索flume中文检索；本文用于记录曾经了解flume的过程以及flume的核心技术点，便于快速掌握flume快速了解Flume用户指南[Overview]Apache Flume is a distributed, reliable, and available system for efficiently c

2021-01-10 19:10:50 324 1

原创 Hive_语法_行列转换

文章目录前置知识准备数据开始测试需求1需求2需求3需求4用Hive处理数据的时候经常会遇到行列互相转换的需求，总结并记录一下行列转行的常见场景和操作语法其中所有的操作都可以直接复制语句去自己的hive执行，查看结果前置知识执行hive或beeline进入，执行desc function explode;查看函数说明；explode(a) - separates the elements of array a into multiple rows, or the elements of a

2020-05-19 09:03:00 291

Eden_lang的博客