- 博客(6)
- 收藏
- 关注
原创 time.strftime()和time.strptime()的区分
strftime()从时间元组或对象生成格式化的字符串。strptime()将格式化的字符串解析为时间元组对象。用法建议使用strftime()当你需要将日期时间对象格式化为特定的字符串时,比如用于输出或者日志记录。使用strptime()当你需要从给定格式的日期时间字符串中提取和处理日期时间信息时,比如解析用户输入或外部数据源中的日期时间字符串。通过理解这两个函数的区别和用法,你可以更有效地处理日期时间的格式化和解析需求。
2024-07-13 08:52:01 432
原创 hive数据采集零点漂移
这个时候数据写入的目录就和系统时间有关系。解决方案是采用自定义flume的拦截器,将数据中的 事件时间(也就是数据生成的实际时间)解析出来,存储到headers里面,key是timestamp,value是解析出来的事件时间,将useLocalTimeStamp配置为false, 最终数据就会写入事件时间对应的目录,这样就能解决零点漂移。1.如果采集的数据是23:59:10产生的,结果超过00:00:00才被抽取到服务器上,那么就会导致这样的数据进入到第二天,进而导致数据分析的不准确,这就是零点漂移。
2024-07-03 09:25:55 904
原创 hive数仓建模使用拉链表的好处及如何构建拉链表
综上所述,Hive数仓建模中使用拉链表的主要原因包括历史数据追踪与快照查询、节省存储空间、查询性能优化、支持复杂的数据分析需求以及易于维护和管理等方面。这些优点使得拉链表成为数据仓库设计中不可或缺的一部分,特别是在处理大规模、高频率更新的数据集时。
2024-07-02 08:35:02 820
原创 hive数仓分层
从ODS层到ADS层,Hive的数据仓库架构形成了一个清晰、高效的数据处理和分析流程。ODS层提供了原始数据的存储;DWD层对数据进行清洗和规范化;DIM层提供了维度数据;DWS层整合了数据并提供了高度汇总的数据;最后,ADS层将数据提供给数据产品和数据分析使用。这个流程确保了数据的高效处理和分析,为业务决策提供了有力的支持。
2024-07-01 12:12:54 515
原创 Java基础
通过Java语言编写的应用程序在不同的系统平台上都可以运行 因为有了JVM,所以同一个Java程序在三个不同的操作系统中都可以执行。这样就实现了Java程序的可移植性。也称为Java具有良好的跨平台性。
2024-06-29 15:40:05 1940
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人