大数据
文章平均质量分 95
kuokay
这个作者很懒,什么都没留下…
展开
-
Spark_sql&Spark_streaming从入门到精通
1、Spark SQL 概述Spark SQL概念Spark SQL is Apache Spark’s module for working with structured data.它是spark中用于处理结构化数据的一个模块Spark SQL历史Hive是目前大数据领域,事实上的数据仓库标准。Shark:shark底层使用spark的基于内存的计算模型,从而让性能比Hive提升了数倍到上百倍。底层很多东西还是依赖于Hive,修改了内存管理、物理计划、执行三个模块2014年原创 2022-04-04 20:25:15 · 1062 阅读 · 0 评论 -
spark 入门
1.1 spark概述1、什么是spark基于内存的计算引擎,它的计算速度非常快。但是仅仅只涉及到数据的计算,并没有涉及到数据的存储。2、为什么要学习sparkMapReduce框架局限性1,Map结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据2,任务调度和启动开销大3,无法充分利用内存4,不适合迭代计算(如机器学习、图计算等等),交互式处理(数据挖掘)5,不适合流式处理(点击日志分析)6,MapReduce编程不够灵活,仅支持Map和Reduce两种原创 2022-04-04 20:16:30 · 444 阅读 · 0 评论 -
最详细的Hive&HBase
Hive一 Hive基本概念1 Hive简介####1.1 什么是 HiveHive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive 本质: 将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利用 HQL 处理和计算 HDFS 上的结构化的数据,是一款基于 HDFS 的 MapReduce 计算框原创 2022-04-03 18:20:53 · 3757 阅读 · 0 评论 -
最全分布式文件系统 HDFS&YARN&MapReduce详讲
简介Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜原创 2022-04-02 22:36:17 · 390 阅读 · 0 评论 -
数据分析之Hadoop详解
1.1 什么是Hadoop- Hadoop的概念:Apache™ Hadoop® 是一个开源的, 可靠的(reliable), 可扩展的(scalable)分布式计算框架允许使用简单的编程模型跨计算机集群分布式处理大型数据集可扩展: 从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储可靠的: 不依靠硬件来提供高可用性(high-availability),而是在应用层检测和处理故障,从而在计算机集群之上提供高可用服务- Hadoop能做什么?搭建大型数据仓库PB级原创 2022-04-02 22:09:39 · 4702 阅读 · 0 评论