模版
猿与禅
think more , write less , more value !
君子藏器于身,待时而动,争其必然,顺其自然
展开
-
规范-大数据分析平台开发流程-v1
需求分析 原型设计业务调研收集项需收集信息描述调研结果数据集成有哪些数据源要迁移,数据源版本每种数据源的数据全量数据规模迁移目的端数据源种类以及版本数据的迁移周期:天、小时、分钟还是实时迁移数据源与目的数据源之间的网络带宽数据源和集成工具之间的组网是什么样的数据库类迁移,调研表的个数,最大表的规模文件类迁移,文件的个数,有没有单文件超过TB级文件作业数量规模是多少每日作业调度次数是多少数据开发人员的数量是多少期望通过实施数据治理达到什么目标,例原创 2021-03-27 15:46:00 · 614 阅读 · 0 评论 -
欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦:Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl转载 2016-07-26 14:49:03 · 308 阅读 · 0 评论 -
spark1.x-spark-sql性能优化
cache join和group by 作为变量设置shuffle过程中的并行度spark.sql.shuffle.partitions SQLContext.setConf()在hive数据仓库建设过程中 合理设置数据类型 比如能设置为INT的 不要设置为BigInt 减少数据类型导致的内存开销填写SQL时 尽量给出明确的列名 比如select name from students 不要转载 2017-06-29 15:03:28 · 972 阅读 · 0 评论