- 博客(4)
- 资源 (19)
- 收藏
- 关注
原创 分组Top N问题(三) - sql及Hive实现
前言:同上篇Hadoop MapReduce 实现分组Top n介绍一样,这次学习Hive实现分组Top n。案例:在数据处理中,经常会碰到这样一个场景,对表数据按照某一字段分组,然后找出各自组内最大的几条记录情形。针对这种分组Top N问题,我们利用Hive、MapReduce等多种工具实现一下。场景模拟:对类如下users表记录,取出不同grade下得分最多的两条记录i
2016-11-25 16:44:25 6132
原创 分组Top N问题(二) - Hadoop MapReduce实现
前言:在Hadoop中,排序是MapReduce的灵魂,MapTask和ReduceTask均会对数据按Key排序,这个操作是MR框架的默认行为,不管你的业务逻辑上是否需要这一操作。技术点:MapReduce框架中,用到的排序主要有两种:快速排序和基于堆实现的优先级队列(PriorityQueue)。Mapper阶段: 从map输出到环形缓冲区的数据会被排序(这是MR框架中改良
2016-11-25 16:23:07 5823 3
原创 分组Top N问题(一) - java实现Top n算法基础
前言:在分析MapReduce、Hive、Redis和Storm、Spark等工具实现分组Top n问题前,我们先看下java最原始实现Top的方法有哪些,为后面奠定些基础,这也是我要整理成一个系列的原因。对于Top n问题,这里根据数据特点用合并法、快排过程法、大小顶堆和PriorityQueue固定队列四种方式来实现。合并法:数据描述:这种方法适用于几个数组有序的情况,来求To
2016-11-25 14:58:46 12847 7
原创 hive常用UDF and UDTF函数介绍-lateral view explode()
前言:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。这里只大概说下Hive常用到的UDF函数,全面详细介绍推荐官网wiki:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF。定义:UDF(User-Defined-Function),用户自定义函数对数据进行处理。
2016-11-23 14:13:06 12433
spring boot 异常处理方案
2017-08-28
The current branch is not configured for pull
2016-08-06
基于Spring Cloud和ES事件流构建的商城微服务
2016-07-27
上传插件afinal_0.5_bin.jar
2015-03-26
mysql主从配置文件
2015-03-22
WebSocket学习文档
2015-01-08
JPA、hibernate项目常用包
2015-01-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人