- 博客(2)
- 资源 (1)
- 收藏
- 关注
原创 基于阿里云EMR初期集群选购指南
业务数据量 业务库:累计15G 日志:累计3T;日增量13G集群配置 方案制定:高可用(建议): 集群有两个NameNode节点,一台处于active状态,一台处于standby状态,两台机器实时同步元数据信息,但整个集群工作由active状态的NameNode负责,当此台NameNode出现故障(宕机等情况),standby状态的NameNode会立刻转为active模式,保证集群正常运行。方案: ...
2020-12-09 14:47:45
489
原创 HIVE数据仓库设计
一、目的将各业务部门的日志及必要的业务数据收集到大数据集群,以便进行统一的清洗规整、统计、建模,最终为公司管理层、业务部门提供经营分析、指标监控、推荐服务、公关数据等方面的能力支撑。二、设计原则1、合理:包括:规则合理、数据分层合理、流程合理。数仓越来越规范化,易于后续快速入手,保证数据的完整及安全,数据逻辑易修改。2、可控:包括:数据安全可控、问题定位可控3、迭代优化:可持续优化三、数据分层 分层 说明 ..
2020-12-09 14:41:14
1222
hdfswriter-0.0.1-SNAPSHOT.jar(hdfswriter支持parquet文件且支持自动创建目录)
2021-12-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人