![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
模版
猿与禅
think more , write less , more value !
君子藏器于身,待时而动,争其必然,顺其自然
展开
-
规范-大数据分析平台开发流程-v1
需求分析 原型设计 业务调研 收集项 需收集信息描述 调研结果 数据集成 有哪些数据源要迁移,数据源版本 每种数据源的数据全量数据规模 迁移目的端数据源种类以及版本 数据的迁移周期:天、小时、分钟还是实时迁移 数据源与目的数据源之间的网络带宽 数据源和集成工具之间的组网是什么样的 数据库类迁移,调研表的个数,最大表的规模 文件类迁移,文件的个数,有没有单文件超过TB级文件 作业数量规模是多少 每日作业调度次数是多少 数据开发人员的数量是多少 期望通过实施数据治理达到什么目标,例原创 2021-03-27 15:46:00 · 601 阅读 · 0 评论 -
欢迎使用CSDN-markdown编辑器
欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文件 丰富的快捷键 快捷键 加粗 Ctrl + B 斜体 Ctrl + I 引用 Ctrl转载 2016-07-26 14:49:03 · 301 阅读 · 0 评论 -
spark1.x-spark-sql性能优化
cache join和group by 作为变量设置shuffle过程中的并行度spark.sql.shuffle.partitions SQLContext.setConf()在hive数据仓库建设过程中 合理设置数据类型 比如能设置为INT的 不要设置为BigInt 减少数据类型导致的内存开销填写SQL时 尽量给出明确的列名 比如select name from students 不要转载 2017-06-29 15:03:28 · 958 阅读 · 0 评论