Hive 基础知识
MichaelZhu
这个作者很懒,什么都没留下…
展开
-
hive窗口函数总结
窗口函数用于对 -Query出来的数据- 进行 -分窗口- 的 -动作-. 这句话有3个重点: 1.Query出来的数据 2. 分窗口 3. 动作 我们来看下 标准sql select *,action(col) over([partition by col] [order by col] [row betweenUNBOUNDED PRECEDING andCURRENT...原创 2019-08-25 17:09:31 · 932 阅读 · 0 评论 -
MapReduce中Driver类的格式
以WordCount为例, MapReduce任务包含至少三个类: Driver类、Mapper类、Reducer类. Mapper类和Reducer类暂时不说. Driver类的开发更像是"八股文"一般, 有着固定的格式. ①配置Job Configuration configuration = new Configuration(); Job job =...原创 2019-10-03 11:45:43 · 984 阅读 · 0 评论 -
MapReduce中的排序之 -- 快排
排序是大数据的核心精华. 快排和归并排序更是MapReduce中的精华部分. 以下是快排部分. 一、百度百科: 通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。 二、通俗解释: 拿到一组数据后, 随机...原创 2019-10-03 22:46:19 · 1213 阅读 · 0 评论 -
MapReduce中的排序之 -- 归并排序
排序是大数据的核心精华. 快排和归并排序更是MapReduce中的精华部分. 以下是归并排序部分. 一、百度百科: 归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成...原创 2019-10-03 23:51:03 · 1833 阅读 · 0 评论 -
python append hdfs 总数目异常
问题: python append 数据到hdfs上. 导入后 select count(*) from table; 条数为1. 原因: mateData表中没有更新数据. 解决方案: ANALYZE TABLE tablename(修改表名) COMPUTE STATISTICS; ...原创 2019-10-09 16:02:45 · 99 阅读 · 0 评论