- 博客(12)
- 资源 (4)
- 收藏
- 关注
原创 开窗函数()
比如对于FName等于 Tom的行,它所属的城市是BeiJing,同属于BeiJing的人员一共有6个,所以对于这一列的显示结果为6。可以看作是把有序的数据集合平均分配到指定的数量n的桶中,将桶号分配给每一行,排序对应的数字为桶号。SQL 允许将所有聚合函数用作开窗函数,用over区分开窗函数和聚合函数。开窗函数的over后括号中的可以使用 PARTITION BY 子句来定义行的分区来供进行聚合计算。可以看到,与聚合函数不同的是,开窗函数在聚合函数后加了个 over。
2022-09-19 17:25:01 161 1
原创 拉链表整理
3、需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个客户在历史某一个时间点的还款状态。2、表中的部分字段会被更新,如用户的地址,联系方式,还款的状态等等;1、简历临时安装表VT_NEW,用于存放转换、处理后的数据。对历史拉链算法入库数据,需要限制某一时间点或时间段来使用。2、简历临时表VT_INC,用于存放比对出的增量数据。维护历史状态,以及最新状态数据的一种表(百度百科)拉链表是一种满足生产需求的表,主要用于历史记录。3、修改目标表,进行关链更新操作。4、修改目标表,进行开链插入操作。
2022-09-05 16:46:31 241
原创 分区表笔记
分区表:当表中数据过大时,查询效率就会变慢,程序的执行效率就会降低,考虑分区表进行分区,就是逻辑上将一张完整的表,在物理层面上存放到多个表空间,查询数据时,不需要整表检索。分区表种类:范围分区(range),列表分区(list),散列分区,符合分区。注意:就是在设计表的时候加上分区功能,后续无法对已有表加分区。缺点:就是在设计表的商户加上分区功能,后续无法对已有表加分区。增强可用性,便于维护。
2022-09-02 13:22:02 140
原创 Hive、Hbase、ZooKeeper、Mahout理解笔记
Hive由Facebook开源,最初用于解决海量结构化的日志数据统计问题。Hive定义了一种类似SQL的查询语(HiveQL),将SQL转化为MapReduce任务在Hadoop上执行,通常用于离线分析。
2022-09-01 14:10:00 787
原创 hadoop笔记
Hadoop主要由两部分组成:分布式文件系统HDFS和分布式计算框架MapReduce,分布式文件系统主要是用于海量数据的存储,而MapReduce则是基于此分布式文件系统对存储在分布式文件系统中的数据进行分布式计算,接下来对Hadoop的两个组成部分的架构特点进行深入的了解。CDH4、CDH5系列,其核心组件除了原有的HDFS、MapReduce以外又增加了YARN资源管理系统YARN负责整个集群资源的管理和调度,而原有的MapReduce则运行在YARN上面。5、移动计算的代价比移动数据的代价低。...
2022-09-01 13:52:17 415
原创 迪士尼评论分析代码
随着评论、评级、建议和其他在线表达形式的激增,在线意见已经成为寻求营销产品、发现新机会和管理声誉的企业的一种虚拟货币,通过分析游客对于迪士尼乐园的评价,得出乐园的缺点不足,找出改进方法。...
2022-08-29 17:52:31 420
原创 了解一下oracle数据库吧
Oracle Database,又名Oracle RDBMS,或简称Oracle。是甲骨文公司的一款关系数据库管理系统。它是在数据库领域一直处于领先地位的产品。可以说Oracle数据库系统是目前世界上流行的关系数据库管理系统,系统可移植性好、使用方便、功能强,适用于各类大、中、小微机环境。它是一种高效率的、可靠性好的、适应高吞吐量的数据库方案。...
2022-08-29 17:42:44 155
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人