![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
我叫龙翔天翼
广告,推荐,AI算法,hive, spark
展开
-
正态分布 置信区间 威尔逊置信区间(Wilson score interval)
一、正态分布标准正态分布标准正态分布就是均值为0,标准差为1的分布,如下图一般正态分布一般正态分布n,假设其均值是 μ,标准差为σ ,即服从 n~N(μ,σ)经过变换可以转换成标准正态分布:另X = (N - μ)/ σ,则X就是服从标准的正态分布了X~N(0,1)二、置信区间上图中的面积就是标准正态分布的概率,而置信区间就是变量的区间估计,例如图中的-1到1就是一个置信区间:...原创 2019-04-26 09:27:55 · 70464 阅读 · 0 评论 -
HIve 分析和窗口函数 WindowingAndAnalytics
HIve 分析和窗口函数 WindowingAndAnalytics常见的GROUP BY 和 DISTRIBUTE BY 等语句并不能支持诸如分组排名、滑动平均值等计算,原因是 GROUP BY 语句只能为每个分组的数据返回一条记录,而非每条数据一行。但是,Hive 0.11之后引入了窗口查询功能,使用 WINDOW 语句我们可以基于分区和窗口,在实现分组分析的目的的同时,为每条数据都生成一行...原创 2019-04-27 12:31:25 · 370 阅读 · 0 评论 -
Hive表类型及使用技巧-拉链表
拉链表一、数据加工和维护概念:所谓拉链表就是记录一个事物从开始 一直到当前状态的所有变化信息;通过比较,记录数据的生命周期,能够快速还原任意天的历史快照,而非全量的每天记录所有数据,因此极大节省了存储。一般表名后面xxx_chain数据加工方式:(1)拉链表中一般会存在一个字段“start_date”表示该记录的起始时间,不代表创建时间,非业务时间。一把会存在"createtime"...原创 2019-04-29 10:39:56 · 3557 阅读 · 0 评论 -
Hive优化
一、hive表重新合并小文件merge_file="set mapreduce.input.fileinputformat.split.maxsize=268435456;set mapreduce.input.fileinputformat.split.minsize.per.node=268435456;set mapreduce.input.fileinputformat.split...原创 2019-04-25 10:43:31 · 184 阅读 · 0 评论 -
计算广告 权威资料总结
1.阿里自主创新的下一代匹配&推荐技术:任意深度学习+树状全库检索 https://zhuanlan.zhihu.com/p/35030348转载 2019-07-13 10:23:47 · 139 阅读 · 0 评论 -
Spark中的UDAF简介及其Stage task
Spark中的UDAF简介及其Stageudaf操作会分为两个stage:partial_merge: 本地进行merge,是一种窄依赖。tasks数量取决于上一步的partitions。merge:不同partition的数据进行merge,是一种宽依赖,需要shuffle,因此tasks数量取决于设置的值spark.default.parallelismclass ...原创 2019-08-09 20:14:59 · 303 阅读 · 0 评论