![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 90
DK_521
这个作者很懒,什么都没留下…
展开
-
Zabbix-6.4.4部署及监控配置
对zabbix-6.4.4版本进行调研。了解并测试zabbix-6.4.4部署以及监控配置。libXML:2.6.15以上。MySQL版本:8.0.X。PHP版本:7.4.X。原创 2023-07-24 11:21:29 · 1821 阅读 · 0 评论 -
大数据技术之SparkSQL
1.1 什么是Spark SQL1Spark SQL是Spark用于结构化数据)处理的Spark模块。1.2 为什么要有Spark SQL。原创 2023-04-27 21:08:52 · 914 阅读 · 0 评论 -
大数据技术之SparkCore
RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。在实际开发中我们往往需要自己定义一些对于RDD的操作,那么此时需要注意的是,初始化工作是在Driver端进行的,而实际运行程序是在Executor端进行的,这就涉及到了跨进程通信,是需要序列化的。通过基于RDD的一系列转换,丢失的数据会被重算,由于RDD的各个Partition是相对独立的,因此只需要计算丢失的部分即可,并不需要重算全部Partition。原创 2023-04-27 19:52:20 · 1078 阅读 · 0 评论 -
大数据技术之Kafka
Kafka是一个。原创 2023-04-01 19:45:02 · 1393 阅读 · 0 评论 -
大数据技术之Flume
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。Flume 最主要的作用就是,实时读取服务器本地磁盘的数据,将数据写入到HDFS1. Ganglia由gmond、gmetad和gweb三部分组成。是一种轻量级服务,安装在每台需要收集指标数据的节点主机上。使用gmond,你可以很容易收集很多系统指标数据,如CPU、内存、磁盘、网络和活跃进程的数据等。整合所有信息,并将其以RRD格式存储至磁盘的服务。原创 2023-03-24 19:00:58 · 528 阅读 · 0 评论 -
大数据技术之Hive
Hive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,将结构化的数据文件映射为一张表,并提供类SQL(HQL)查询功能。1)用户接口:ClientJDBC/ODBC(jdbc访问hive)、2)元数据:Metastore元数据包括:表名、表所属的数据库(默认是default)、表的拥有者、列/分区字段、表的类型(是否是外部表)、表的数据所在目录等;默认存储在自带的derby数据库中,推荐使用MySQL。原创 2023-03-18 18:18:42 · 2356 阅读 · 0 评论 -
大数据技术之Hadoop(Yarn)
假设集群一共有100 CPU和10T 内存,而应用A需要(2 CPU,300GB),应用B需要(6 CPU,100GB)则两个应用分别需要A(2%CPU.3%内存)和B(6%CPU1%内存)的资源,这就意味着A是内存主导的,B是CPU主导的,针对这种情况,我们可以。(3)灵活性:如果一个队列中的资源有剩余,可以暂时共享给那些需要资源的队列,而一旦该队列有新的应用程序提交,则其他队列借调的资源会归还给该队列。我们之前说的资源,都是单一标准,例如只考虑内存(也是Yarn默认的情况)。原创 2023-03-09 20:00:36 · 231 阅读 · 0 评论 -
大数据技术之Hadoop(MapReduce)
MapReduce是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。1)什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2)为什么要序列化。原创 2023-03-09 16:45:06 · 278 阅读 · 0 评论 -
大数据技术之Hadoop(HDFS)
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。原创 2023-02-28 15:39:22 · 165 阅读 · 0 评论 -
大数据技术之Hadoop(集群配置)
四个配置文件存放在$HADOOP_HOME/etc/hadoop这个路径上,用户可以根据项目需求重新进行修改配置。各个模块分开启动/停止(配置ssh是前提)常用整体启动/停止HDFS整体启动/停止YARN。原创 2023-02-22 21:35:23 · 293 阅读 · 2 评论 -
大数据技术之Hadoop(入门)
1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构;2)主要解决,海量数据的存储和海量数据的分析计算问题;3)广义上来说,Hadoop通常是指一个更广泛的概念--Hadoop生态圈;Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。Yet Another Resource Negotiator简称YARN ,另一种资源协调者,是Hadoop的资源管理器。MapReduce将计算过程分为两个阶段:Map和Reduce。原创 2023-02-22 20:04:29 · 160 阅读 · 0 评论