![](https://img-blog.csdnimg.cn/20190918140129601.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Hadoop/Spark大数据
文章平均质量分 67
大数据
Arthur-Ji
不要崇拜,不要自卑
不要盲目相信高势能
不要随波逐流
脚踏实地
展开
-
Logstash 7.4配置转发器报错提示:“[ERROR][logstash.agent] Failed to execute ction {:action=>LogStash::Pipel”原因
Logstash 7.4转发器的配置启动报错的解决过程 经过修改配置文件,执行以下命令启动服务 nohup bin/logstash -f config/kafka_os_into_es.conf & ----->通过nohup命令将服务启动的进程放到后台并输出到日志 输出...转载 2021-05-10 21:14:16 · 1274 阅读 · 0 评论 -
Hadoop、Storm、Spark这三个大数据平台有啥区别
Storm与Spark、Hadoop这三种框架,各有各的优点,每个框架都有自己的最佳应用场景。 所以,在不同的应用场景下,应该选择不同的框架。 Storm是最佳的流式计算框架,Storm由Java和Clojure写成,Storm的优点是全内存计算,所以它的定位是分布式实时计算系统,按照Storm作者的说法,Storm对于实时计算的意义类似于Hadoop对于批处理的意义。 Storm的适用场景: 1)流数据处理 Storm可以用来处理源源不断流...转载 2020-10-10 17:25:03 · 380 阅读 · 0 评论 -
流计算框架 Flink 与 Storm 的性能对比
1. 背景Apache Flink 和 Apache Storm 是当前业界广泛使用的两个分布式实时计算框架。其中 Apache Storm(以下简称“Storm”)在美团点评实时计算业务中已有较为成熟的运用(可参考 Storm 的可靠性保证测试),有管理平台、常用 API 和相应的文档,大量实时作业基于 Storm 构建。而 Apache Flink(以下简称“Flink”)在近期倍受关注,具有高吞吐、低延迟、高可靠和精确计算等特性,对事件窗口有很好的支持,目前在美团点评实时计算业务中也已有一定应用。为深转载 2020-10-10 17:16:25 · 206 阅读 · 0 评论 -
Storm概念学习系列之Storm与Hadoop的角色和组件比较
Storm与Hadoop的角色和组件比较 Storm 集群和 Hadoop 集群表面上看很类似。但是 Hadoop 上运行的是 MapReduce 作业,而在 Storm 上运行的是拓扑 Topology,这两者之间是非常不同的。一个关键的区别是:一个MapReduce 作业最终会结束,而一个 Topology 拓扑会永远运行(除非手动杀掉)。表 1-1 列出了 Hadoop 与 Storm 的不同之处。 如果只用一个短语来描述 Storm,可能会是这样:分.转载 2020-10-10 17:09:44 · 383 阅读 · 0 评论 -
HBase和HDFS的关系
问题:关系数据库已经流行很多年,并且Hadoop已经有了HDFS和MapReduce,为什么需要HBase? 1、首先了解一下 HDFS文件存储系统和HBASE分布式数据库 HDFS是Hadoop分布式文件系统。 HBase的数据通常存储在HDFS上。HDFS为HBase提供了高可靠性的底层存储支持。 Hbase是Hadoop database即Hadoop数据库。它是一个适合于非结构化数据存储的数据库,HBase基于列的而不是基于行的模式。 HBase是Go...转载 2020-10-10 16:51:50 · 1582 阅读 · 0 评论 -
数据仓库中mysql,hive,hdfs,mapreduce之间的关系
交流中发现很多hive转行的开发者都不是特别清楚,hive既然是数据仓库,那为什么还需要mysql数据库,还需要hdfs呢,熟悉三者之间的关系是作为一个合格的hive数据仓库开发者必须掌握的技能 一.什么是Hive与其特点 官网介绍:The Apache Hive ™ data warehouse software facilit...转载 2020-10-10 16:36:06 · 521 阅读 · 0 评论 -
比较Hadoop和Spark
对Hadoop与Spark孰优孰劣这个问题,最准确的观点就是,设计人员旨在让Hadoop和Spark在同一个团队里面协同运行。直接比较Hadoop和Spark有难度,因为它们处理的许多任务都一样,但是在一些方面又并不相互重叠。比如说,Spark没有文件管理功能,因而必须依赖Hadoop分布式文件系统(HDFS)或另外某种解决方案。将Hadoop MapReduce与Spark作一番比较来得更明智,因为它们作为数据处理引擎更具有可比性。过去几年,随...转载 2020-10-10 16:27:14 · 548 阅读 · 0 评论 -
Hadoop、Hive、Spark 之间是什么关系?
Hadoop、Hive、Spark 之间是什么关系? 2018-02-122018-02-12 11:32:00阅读 4.8K0大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。大数据,首先你要能存的下大数据传统的文件系统是单机的,不能横跨转载 2020-10-10 16:16:43 · 215 阅读 · 0 评论 -
菜鸟的Hadoop快速入门
一、相关概念1、大数据大数据是一门概念,也是一门技术,是以Hadoop为代表的大数据平台框架上进行各种数据分析的技术。大数据包括了以Hadoop和Spark为代表的基础大数据框架,还包括实时数据处理,离线数据处理,数据分析,数据挖掘和用机器算法进行预测分析等技术。2、HadoopHadoop是一个开源的大数据框架,是一个分布式计算的解决方案。Hadoop的两个核心解决了数据存储问题(HDFS分布式文件系统)和分布式计算问题(MapRe-duce)。举例1:用户想要获取某个路径的数据,数据存放在转载 2020-10-10 15:49:40 · 1695 阅读 · 0 评论