![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 92
NWU_LK
这个作者很懒,什么都没留下…
展开
-
Kafka——NWU_LK
Kafka定义kafka是一个分布式的基于发布/订阅模式的消息队列,主要用于大数据实时处理领域。原创 2021-07-12 11:24:36 · 110 阅读 · 0 评论 -
Prometheus学习笔记——NWU_LK
Prometheus监控系统组件指标数据采集指标数据存储指标数据趋势分析及可视化告警监控体系介绍系统层监控:监控CPU、Load、Memory、IO等中间件及基础设施类系统监控:Kafka、RabbitMQ、Tomcat、Mysql、Ceph、ShardingSpere等应用层监控:用于衡量应用程序代码的状态和性能业务层监控:用于衡量应用程序的价值,例如电商网站的销售量等监测的黄金指标延迟:服务器请求所需时长、例如HTTP请求平均延迟流量:衡量服务的容量需求,例如每秒处理原创 2021-07-06 15:41:33 · 198 阅读 · 0 评论 -
Hive学习笔记——NWU_LK
HiveHive概述本质:将sql装换成MapReduce任务进行运算,可以理解为hive就是一个MapReduce的客户端。Hive处理的数据存储在HDFS,执行程序在yarn上,底层实现是MapReduce特点可扩展:Hive可以自由的扩展集群的规模,一般情况下不需要重启服务延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。容错:良好的容错性,节点出现问题SQL仍可完成执行缺点HQL的表达能力有限Hive的效率比较低,自动生成的MR不够智能化,hive调原创 2021-07-02 19:49:47 · 186 阅读 · 2 评论 -
Ambari——NWU_LK
AmbariAmbari介绍Ambari 是 Apache Software Foundation 的一个顶级开源项目,是一个集中部署、管理、监控 Hadoop 分布式集群的工具。但是这里的 Hadoop 是一个广义概念,并不仅仅指的是 Hadoop(HDFS、MapReduce),而是指 Hadoop 生态圈(包括 Spark、Hive、Hbase,Sqoop,Zookeeper、Flume 等),Ambari 可以使 Hadoop 大数据软件更容易使用,且可以方便的集成我们自己的服务让 Ambari原创 2021-07-01 10:08:45 · 159 阅读 · 0 评论 -
Yarn学习笔记——NWU_LK
YarnYarn概述Yarn是一个资源高度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而Mapreduce等运算程序则相当于运行于操作系统之上的应用程序。yarn组成ResourceManager、NodeManager、ApplicationMaster和Container等组件名称作用ResourceManager(RM)(1)处理客户端请求(2)监控NodeManager(3)启动或监控ApplicationMaster(4)资源的分配与调度原创 2021-06-30 10:37:24 · 132 阅读 · 1 评论 -
MapReduce学习笔记——NWU_LK
MapReduceMapReduce概述数据量越来越大,一个操作系统中存不下所有的数据,那就需要分配到多个操作系统的磁盘上,但是由不好进行管理,因此就需要一个系统来管理多个机器上的文件,这就是分布式文件管理系统,HDFS是一种分布式管理系统。...原创 2021-06-29 18:57:51 · 235 阅读 · 1 评论 -
HDFS学习笔记——NWU_LK
HDFS学习HDFS产生的背景数据量越来越大,一个操作系统中存不下所有的数据,那就需要分配到多个操作系统的磁盘上,但是由不好进行管理,因此就需要一个系统来管理多个机器上的文件,这就是分布式文件管理系统,HDFS是一种分布式管理系统。HDFS定义HDFS就是Hadoop Distribute File System,他适合一次写入,多次读出的场景,且不支持文件的修改,适合用来做数据分析...原创 2020-08-11 15:42:34 · 162 阅读 · 0 评论 -
Hadoop入门知识学习(二)
Hadoop入门知识(二)Hadoop的完全分布式模式首先准备三台虚拟机集群部署规划虚拟机1虚拟机2虚拟机3HDFSNameNode、DataNodeDataNodeSecondaryNameNode、DataNodeYARNNodeManagerResourceManager NodeManagerNodeManager配置集群核心配置文件修改core-site.xml<!--指定HDFS中 NameNode的地址,此时本地模式就原创 2020-07-30 15:42:01 · 373 阅读 · 0 评论 -
Hadoop入门知识学习(一)
Hadoop入门知识Hadoop简介Hadoop是Apache旗下的一个用java语言实现开源软件框架,主要解决海量数据的存储和海量数据分析。hadoop的优势:高可靠性:Hadoop底层维护了多个数据副本,即使Hadoop某个计算元素或者存储出现故障也不会导致数据的丢失。高拓展性:在集群间分配任务数据,可方便的拓展数以千计的节点高效性:在MapReduce思想下,Hadoop是并行工作的,以加快任务处理速度高容错:能够自动将失败的任务重新分配Hadoop组成Hadoop包含四个组件:原创 2020-07-28 11:28:25 · 376 阅读 · 0 评论