
大数据与云计算
文章平均质量分 86
大数据与云计算
爱写代码的July
这个作者很懒,什么都没留下…
展开
-
大数据:实时大数据和离线大数据
实时大数据适合对速度要求高、需即时反馈的场景,使用流处理框架和内存型数据库来快速处理数据。离线大数据适合对历史数据的深度挖掘和批量处理,使用分布式存储和批处理框架来处理海量数据。原创 2024-09-04 00:32:06 · 1863 阅读 · 0 评论 -
Hive:一文带你掌握Hive基本命令
Hive构建在Hadoop文件系统之上,Hive不提供实时的查询和基于行级的数据更新操作,不适合需要低延迟的应用,如联机事务处理(On-line Transaction Processing,OLTP)相关应用。Hive作为数据仓库软件,使用类SQL的HiveQL语言实现数据查询,所有Hive数据均存储在Hadoop文件系统中,具有以下特性。原创 2024-07-11 10:53:03 · 1250 阅读 · 0 评论 -
Spark:一文带你掌握Spark基础命令
启动spark创建rdd系统将原文件中的内容以行为单位作为rdd中的元素,类型均为字符串类型。原创 2024-07-11 10:38:26 · 876 阅读 · 0 评论 -
Hadoop:认识MapReduce
随着需要处理的数据量激增,我们开始借助分布式并行编程来提高程序的性能,分布式并行程序运行在大规模计算机集群上,可以并行执行大规模数据处理任务,从而获得海量计算的能力。谷歌公司最先提了分布式并行模型MapReduce,hadoop MapReduce则是其的开源实现。传统并行计算框架MapReduce集群架构共享式(共享内存/共享存储)非共享式容错性容错性差容错性好价格贵相对较低硬件&扩展性刀片服务器+高速网+SAN,扩展性差普通PC机,扩展性好学习难度高低使用场景。原创 2024-02-11 18:00:46 · 1768 阅读 · 0 评论 -
Hadoop:HDFS学习巩固——基础习题及编程实战
4.分布式文件系统HDFS采用了主从结构模型,由计算机集群中的多个节点构成的,这些节点分为两类,一类存储元数据叫()?A.把文件名发送给名称节点,根据文件名在名称节点上找到数据块的实际存储信息,客户端再到数据节点上获取数据。9.数据节点负责数据的存储和读取,每个数据节点中的数据会被保存在()。C 存储元数据的是主节点/名称节点,存储具体数据的是从节点/数据节点。C.数据节点在名称节点的统一调度下进行数据块的创建、删除和复制等操作。B.把文件名发送给数据节点,根据文件名直接在数据节点上获取数据。原创 2024-02-01 16:20:40 · 2048 阅读 · 3 评论 -
Hadoop:学习HDFS,看完这篇就够了!
HDFS(Hadoop Distributed File System)是Apache Hadoop生态系统中的,用于存储和处理大规模数据集。由于其具有等特点,因此广泛应用于大数据处理和分析场景。原创 2024-02-01 15:46:07 · 1464 阅读 · 1 评论