- 博客(16)
- 收藏
- 关注
原创 hive自定义UDAF函数 O(n)
hive自定义UDAF函数文章目录hive自定义UDAF函数1.1需求1.2 分析1.3测试数据1.4代码实现1.5 打jar包1.6 上传服务器1.8 使用udaf函数1.9 结果展示2.0 相关注解1.1需求根据产品净值得到某个时间区间内的净值最大回撤,即max((Di-Dj)/Di), Di>=Dj; i,j为日期, Di、Dj 为净值 且 j>=i。以9月1号-9月5号为例,得到max[(9.1-9.1)/9.1,(9.1-9.2)/9.1,(9.2-9.2)/9.1 …(9.4
2021-09-18 17:19:51 353
原创 Scala-符号大全(例子)
Scala-符号大全(例子)文章目录Scala-符号大全(例子)1. 列表1.1++=1.2 ::1.3 :::2. 数组2.1 ++2.2 ++:2.3 +: 和 :+ 和 += 及++=3.函数缩写3.1 /: foldLeft3.2 :\ foldRight4. 其他4.1 =>4.2_N(下划线数字)4.3 <-1. 列表1.1++=一般用于追加元素object OuShu { def main(args: Array[String]): Unit = {
2021-08-09 11:17:58 339
原创 hive 优化
hive 优化(干货)hive优化一般分为底层优化和sql优化底层优化hive 默认引擎为 MR ,涉及优化一般也为MR的优化,一般分为以下部分。数据倾斜 set hive.groupby.skewindata=true;小文件合并是否合并Map输出文件:hive.merge.mapfiles=true(默认)是否合并Reduce 端输出文件:hive.merge.mapredfiles=false(默认)合并文件的大小:hive.merge.size.per.task=256100
2021-07-19 16:26:46 341
原创 数据集市-金融
数据集市-金融数据源上游系统数据载入上游系统数据质量集市建立明确接口指标单元测试联调测试上线数据验证数据源数据源可以为任一业务系统数据,亦可以为行为数据,在这以资产负债系统为例。上游系统数据载入一般银行资产负债系统会有多家上游系统,用于本系统的报表报送,本系统产品跑批及为下游系统供数:明确上游数据规则 ,如增全量,文件到达时间,数据文件类型,数据逻辑是否满足直取规则,若需二次加工如何处理;明确数据进入方式,明确本集市的数据是否由ods直取,明确是否需要第三方传输工具;数据由ods直取,配置调
2021-07-15 17:12:38 441
原创 spark核心题
Spark 面试题1.Spark内置模块包括哪些?请分别简述其功能。Spark Core:实现了Spark 的基本功能:任务调度内存调度错误恢复与存储系统交互对RDD(Resilient Distributed DataSet)的API的定义Spark SQL:是Spark用来操作结构化数据的程序包. 可以通过SQL或Hive版本的(HQL)查询数据.Spark ...
2019-03-19 18:08:44 973
原创 Spark-RDD-Action
Spark-RDD-Action1.1 ActionAction算子不会再转成RDD算子,而是转出结果,之前的collect算子就是Action算子1.11 reduce(func) 案例作用:通过func函数聚集RDD中的所有元素,先聚合分区内数据,再聚合分区间数据。需求:创建一个RDD,将所有元素聚合得到结果。scala> val rdd1 = sc.parall...
2019-01-22 20:25:35 129
原创 Spark-RDD编程
Spark-RDD编程文章目录Spark-RDD编程1.1 RDD概述1.11定义1.12 属性1.13特点1.13.1 分区1.13.2 只读1.13.3 依赖1.13.4 缓存1.13.5 CheckPoint1.2 RDD模型1.3 RDD的创建三种方式1.3.1 集合中创建1.32 由外部系统创建RDD1.33 从其他创建RDD1.4 RDD的转换 (开发重点)1.41 Value类型...
2019-01-22 19:19:49 778
原创 Scala学习-面向对象
Scala-面向对象1.类和对象1.1类基本语法:[修饰符] class 类名 { 类体}注意:scala 语法中,类并不声明为public,所有这些类都具有公有可见性(即默认就是public)一个 Scala 源文件可以包含多个类1.2属性属性是类的一个组成部分,一般是值数据类型,也可是引用类型。基本语法:[修饰符] var 属性名称 [:类型] = 属性...
2019-01-17 10:08:09 258
原创 类型参数
类型参数1.1 泛型类在 scala 中使用方括号来定义类型参数.class Pair[T, V](a: T, b: V) { def foo(): T ={ println(a, b) a }}object Pair { def main(args: Array[String]): Unit = { val pa...
2019-01-16 22:10:18 1906
原创 递归思想
递归思想1.计算连续整数的和循环解法// 从 from 一直加到 to// 循环解法: def sum1(from: BigInt, to: BigInt): BigInt = { var num = from var sum: BigInt = 0 while (num <= to) { sum += num num +=...
2019-01-16 19:54:56 167
原创 函数式高级编程
函数式高级编程1.1 偏函数被大括号包含起来的一组case语句就是一个偏函数.偏函数并非对所有的输入值都有定义.创建偏函数object ParDemo { def main(args: Array[String]): Unit = { val f1 = new PartialFunction[Any, Int] { // 接受传入的参数, 如果返回值值是true...
2019-01-16 17:02:13 387 2
原创 模式匹配
模式匹配Scala 中的模式匹配类似于java中的 switch 语法, 但是更加强大模式匹配语法中, 使用 match关键字声明, 每个分支采用 case 关键字进行声明, 当需要匹配是,会在第一个case 分支开始,如果匹配成功,那么执行对应的逻辑代码,如果匹配不成功,继续执行下一个分支进行判断.如果所有 case 都不匹配, 那么会执行 case _ 分支, 类似于 j...
2019-01-16 16:09:39 1638
原创 数据结构(下)
数据结构(下)1.1Map映射操作object Mapde { // 请将list(3,5,7) 中的所有元素都* 2 def main(args: Array[String]): Unit = { val list = List(1,2,3,5,4) val lis2: mutable.MutableList[Int] = mutable...
2019-01-16 10:43:00 236
原创 ELK
ELK1.1ELK是什么?ElasticSearchJavaElasticsearch:是一个分布式数据搜索引擎,他可以用于全文检索,结构化搜索以及分析,lucene。SolrLogstashJRuby注意:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。 Logstash:是一个完全开源的数据收集引擎,包含...
2019-01-06 16:50:27 171
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人