大数据
文章平均质量分 62
Godxv
编程使我快乐:)
展开
-
Hive优化总结
一、SQL本身的优化1、只select需要的列,避免select *2、where条件写在子查询中,先过滤再关联3、关联条件写在on中,而不是where中4、数据量大时,用group by代替count distinct5、数据量小时,用in代替join6、避免笛卡尔积7、join时大表放后面,使用相同的连接键7、严格格式Hive.mapred.mode,分 nonstrict,strict,默认是nonstrict,如果设置为strict,对三种情况限制:(1)分区表必须加分区。原创 2022-03-30 18:47:34 · 8105 阅读 · 0 评论 -
《大数据之路:阿里巴巴大数据实践》笔记——数据模型篇
为什么要数据建模 性能:良好的数据模型能帮助我们快速查询所需要的数据,减少数据的 110 吞吐。 成本:良好的数据模型能极大地减少不必要的数据冗余,也能实现计算结果复用,极大地降低大数据系统中的存储和计算成本。 效率:良好的数据模型能极大地改善用户使用数据的体验,提高使用数据的效率。 质量:良好的数据模型能改善数据统计口径的不一致性,减少数据计算错误的可能性。数据仓库建模方法论ER 模型:用实体关系( Entity Relationship, ER )模型描述企业业务,在范式理论上符合 3NF原创 2021-11-29 20:15:45 · 2135 阅读 · 0 评论 -
《大数据之路:阿里巴巴大数据实践》笔记——离线开发篇
数据开发平台统一的计算平台( MaxCompute )、统一的开发平台( D2 等相关平 台和工具)、统一的数据模型规范和统一的数据研发规范统一计算平台MaxCompute特点计算性能高且更加普惠集群规模大且稳定性高功能组件非常强大(SQL、MR、图、Spark等)安全性高统一开发平台D2在云端(D2)是集成任务开发、调试及发布,生产任务调度及大数据运维数据权限申请及管理等功能的一站式数据开发平台 并能承担数据分析工作台 的功能。SQLSCANSQLSCAN 将在任务开发原创 2021-10-28 19:31:58 · 861 阅读 · 0 评论 -
《大数据之路:阿里巴巴大数据实践》笔记——数据同步篇
数据同步方式方式定义优点缺点直连同步通过定义好的规范接口 API 和基于动态链接库的方式直接连接业务库配置简单,实现容易,比较适合操作型业务系统的数据同步对源系统的性能影响较大数据文件同步通过约定好的文件编码、大小、格式等,直接从源系统生成数据的文本文件,由专门的文件服务器,如 FTP 服务器传输到目标系统后,加载到目标数据库系统中。当数据源包含多个异构的数据库系统(如 MyS QL Oracle QL Server DB2 等)时,用这种方式比较简单、实用;互联网原创 2021-10-27 19:52:00 · 393 阅读 · 0 评论 -
WordCount的6种写法(包括spark和flink版)
package com.gaodongxu.testimport org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.flink.streaming.api.scala._import org.apache.flink.api.scala.ExecutionEnvironmentimport org.apache.flink.streaming.api.scala.StreamExecu.原创 2021-06-29 15:41:56 · 205 阅读 · 0 评论