大数据
文章平均质量分 80
大数据相关知识分享,包括分布式计算引擎,存储引擎,数据仓库
随风i
业精于勤荒于嬉,行成于思毁于随!
展开
-
hive表导入外部数据
生成1亿条数据到文件中,cpu8核耗时4min左右。原创 2023-07-13 10:56:52 · 629 阅读 · 0 评论 -
Alluxio入门手册
Alluxio(之前名为 Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。 它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。在大数据生态系统中,Alluxio 介于计算框架(如 Apache Spark,Apache MapReduce,Apache Flink)和现有的存储系统(如 Amazon S3,OpenStac原创 2023-07-10 16:01:01 · 816 阅读 · 0 评论 -
Flink基础概念及常识
flink入门原创 2023-06-25 16:59:13 · 704 阅读 · 0 评论