dw
少年阿宏
“总有一天你将破蛹而出,成长得比人们期待的还要美丽。但这个过程会很痛,会很辛苦,有时候还会觉得灰心。面对着汹涌而来的现实,觉得自己渺小无力。
但这,也是生命的一部分。做好现在你能做的,然后,一切都会好的。我们都将孤独地长大,不要害怕。”
展开
-
关系建模和维度建模
对于大数据来讲,维度建模区别于关系建模的优点有三:方便理解模型,以业务为驱动更符合人的思维join少shuffle少性能好更方便做数据分析原创 2021-05-12 15:37:28 · 233 阅读 · 0 评论 -
切割nginx日志文件
原始access.log不可能一直写入,因为这个会导致这个文件越来越 大从而影响到读取的效率,因此定时的对这个原始access.log的文件进行切割。log_file=/opt/apps/collect-app/logs/collect-app.access.logdata_dir=/opt/apps/collect-app/logs/data/pid_file=/opt/apps/collect-app/logs/nginx.pid# 切之前判断是否是一个空文件,有数据才切割# 读取指定文件的原创 2020-12-17 20:02:40 · 99 阅读 · 0 评论 -
数据清洗考虑的几个个方面--阿宏
阿宏-数据清洗考虑的几个方面1、预处理在实际业务处理中,数据通常是脏数据。所谓的脏,指数据可能存在以下几种问题(主要问题):1.数据缺失 (Incomplete) 是属性值为空的情况。如 Occupancy = “ ”2. 数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100”3.数据不一致 (Inconsistent)是数据前后存在矛盾的情况。如 Age = “42” vs. Birthday = “01/09/1985”4.数据冗余 (Redundant)是数据量原创 2020-12-01 16:35:38 · 1547 阅读 · 0 评论 -
数仓建设步骤
– 数仓建设步骤– 1、系统分析,确立主题– 操作频率– 存储时长– 查询方式– 响应时长– 2、技术选型– 对整个系统的认知– 根据流程选择合适的工具– 整体的方案性的设计– 3、逻辑模型 ER图– 4、物理模型– 派生字段、时间主键、汇总数据– 5、模型优化– 合并不同的表– 增加汇总表、宽表 dws– 通过冗余字段减少表的连接数量 join的表不超过5张– 主键:Id– 对数据表进行分区、分桶 – 抽样、join– 6、ETL过原创 2020-10-09 21:01:46 · 1025 阅读 · 0 评论 -
sqoop导入数据遇到的参数问题 ,导出–staging-table
sqoop import参数–query "select XXXXX and $CONDITIONS " 按条件导入-m1 指定map在导入的时候采用指定–columns的方式来进行导入sqoop import --hive-import --hive-database test --create-hive-table --connect jdbc --username user–password user–bindir //scratch --outdir /Java --table原创 2020-09-29 20:53:56 · 3683 阅读 · 0 评论 -
数仓构建步骤总结
数仓的构建步骤1.需求分析,确立主题2.技术选型、架构3.建模(逻辑模型,转换成物理模型,模型优化)– 维度模型–星型模式–雪花模式– 范式模型4.ETL过程 – dwd5.数据分析 – dwsETL过程– E:抽取方式、抽取类型– T:数据清洗规则、数据转换规则数据清洗-- 10大方面-- 数据的集成-- 1、预处理:-- 2、标准化处理:id对应不上。。。。淘宝1 laochen xxxx支付宝2 laochen xxxx天猫3 laochen原创 2020-09-29 20:08:33 · 548 阅读 · 0 评论