- 博客(7)
- 收藏
- 关注
原创 sql开窗函数和直接使用group by的区别
可以看出如果直接用order by,只能得到分组的字段和count(*)的结果字段,而使用开窗函数的话可以得到全部值,如果要想使用开窗函数得到上述结果可使用distinct对a进行去重。可以这时就无法直接利用order by 进行排序,因为order by 在末尾是对整体进行排序,无法达到我们想要的结果。有如下字段:dt,order_id,user_id,amout。(2)给出2017年11月的新客数(指在11月才有第一笔订单)直接用group by 可得。直接使用order by。直接order by。
2024-09-07 17:20:26 376
原创 flume自定义拦截器
flume是一个开源的数据采集工具,旨在处理大规模数据流,以便进行数据分析和处理,flume本身有自带的拦截器,当然这些拦截器有时不能满足我们的需求,就需要自定义拦截器。编写flume脚本文件testlnter.conf,借助本文开头的网址编写一个上传到hdfs的脚本。在json格式中,对象可以互相嵌套,观察上面的数据样例,在键为items的值中也进行了嵌套。在编写拦截器之前,先编写一个步骤进行简单的测试把数据转换为目标数据。这时如果不断地往b.log传数据,hdfs上也会有新的数据产生。
2024-09-07 15:22:28 255
原创 java中反射的简单应用
反射是在不实例化对象的情况下,获取一个类中所有字段以及方法的技术,一般用于编写框架上,比如java中的Spring框架。
2024-09-07 10:10:42 323
原创 sql 面试题(hive)
以上就是两道sql题的分享,对于同一个题来说,不同的人想法也不同,我们要学习别人的思路,与自己的作比较,见的方式多了回的题目自然就多了。由上述题目可知,在分别得出所有用户和活跃用户的总数及平均年龄后要把用户与活跃用户的信息进行表连接。由于一周的工作日有5天 用五天减去已经工作的天数 即为周剩余工作日=5-周工作日。因为所有用户中一定包含活跃用户,所以根据user_id对两个表进行左连接。问题:求每天的累计周工作日,剩余周工作日(数据集如下)剩余周工作日=每周应该工作的天数-周工作日。
2024-08-30 13:48:51 213
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人