大数据
文章平均质量分 94
不菜不菜
努力搬砖
展开
-
阿里云生态离线数仓
1. 大数据开发治理平台DataWorks1. 大数据开发治理平台DataWorks功能齐全:10多年大数据建设沉淀完整的平台,覆盖数据开发治理的全生命周期简单易用:全图形化界面,SQL为主的数据开发方式安全稳定:双11日千万级任务稳定调度,金融级数据安全保障开放兼容: 支持多种大数据引擎绑定,开放OpenAPI定制化对接能力。原创 2023-12-06 21:11:17 · 981 阅读 · 0 评论 -
阿里云实时数据仓库Hologres&Flink
为企业所有决策制定过程,提供所有系统数据支持的战略集合。传统的离线数仓无法实现当天数据的及时分析数据,所以需要开发实时数仓开填补空缺。原创 2023-12-06 16:46:52 · 1826 阅读 · 0 评论 -
【Hive 01】简介、安装部署、高级函数使用
表示连接到本地的MySQL数据库,端口为3306,数据库名为hive,使用Asia/Shanghai时区。这些属性用于配置Hadoop代理用户的访问权限,允许指定的主机和用户组通过指定的代理用户进行访问。网上的教程也是很多坑,之前说把Hadoop的一个jar包放进Hive里面,其实不需要这个操作。给定的代码片段是Hive的配置文件,用于配置连接到MySQL数据库的相关属性。:指定用于连接到Hive数据库的JDBC驱动程序的类名。给定的代码片段是Hadoop的配置文件,用于配置代理用户的相关属性。原创 2023-07-21 23:16:01 · 1197 阅读 · 0 评论 -
【Flume 01】Flume简介、部署、组件
Flume是一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。原创 2023-07-21 10:03:03 · 2990 阅读 · 1 评论 -
【Hadoop 02】企业级解决方案
由于在HDFS中,每一个小文件在NameNode中都会占用150字节的内存空间,而且每个小文件都是一个Block,会产生一个InputSplit,这样就会产生一个Map任务,同时启动多个Map任务消耗性能,影响MapReduce执行效率。HDFS提供两种类型的容器,分别是SequenceFile和MapFile。原创 2023-07-20 19:31:13 · 359 阅读 · 1 评论 -
【Hadoop 01】简介
Hadoop适合海量数据分布式存储和分布式计算Java改为支持8及以上HDFS支持纠删码HDFS支持多NameNodeMR任务级本地优化多重服务默认端口变更Hadoop主要包含三大组件:HDFS+MapReduce+YARNHDFS负责海量数据的分布式 存储MapReduce是一个计算模型,负责海量数据的分布式 计算YARN主要负责集群资源的 管理和调度注意。原创 2023-07-14 08:09:59 · 26524 阅读 · 3 评论