![](https://img-blog.csdnimg.cn/direct/728b3e648f494f1e82fcc6ac8e097b1a.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据技术
文章平均质量分 97
大数据技术相关文章
HinsCoder
“吾生也有涯,而知也无涯”——《庄子·养生主》
展开
-
【Hadoop大数据技术】——期末复习(冲刺篇)
📖 前言:快考试了,做篇期末总结,都是重点与必考点。原创 2024-06-21 10:07:29 · 3267 阅读 · 1 评论 -
【Hadoop大数据技术】——Sqoop数据迁移(学习笔记)
在实际开发中,有时候需要将HDFS或Hive上的数据导出到传统关系型数据库中(如MySQL、Oracle等),或者将传统关系型数据库中的数据导入到HDFS或Hive上,如果通过人工手动进行数据迁移的话,就会显得非常麻烦。为此,可使用Apache提供的Sqoop工具进行数据迁移。原创 2024-04-20 00:25:20 · 1934 阅读 · 1 评论 -
【Hadoop大数据技术】——Azkaban工作流管理器(学习笔记)
在前面HDFS分布式文件系统中,我们使用Linux自带的Crontab(定时任务工具)来定时调度任务,但是当业务规模变大并且需要可视化监控任务执行的时候,Crontab就已经不能满足这些需求了。为此,针对多任务,可视化调度的管理需求,工作流管理器便应运而生。原创 2024-04-16 13:00:13 · 1229 阅读 · 0 评论 -
【Hadoop大数据技术】——Flume日志采集系统(学习笔记)
在大数据系统的开发中,数据收集工作无疑是开发者首要解决的一个难题,但由于生产数据的源头丰富多样,其中包含网站日志数据、后台监控数据、用户浏览网页数据等,数据工程师要想将它们分门别类的采集到HDFS系统中,就可以使用Apache Flume(数据采集)系统。原创 2024-04-12 21:01:24 · 2229 阅读 · 0 评论 -
【Hadoop大数据技术】——Hive数据仓库(学习笔记)
Hive起源于Facebook,Facebook公司有着大量的日志数据,而Hadoop是实现了MapReduce模式开源的分布式并行计算的框架,可轻松处理大规模数据。然而MapReduce程序对熟悉Java语言的工程师来说容易开发,但对于其他语言使用者则难度较大。因此Facebook开发团队想设计一种使用SQL语言对日志数据查询分析的工具,而Hive就诞生于此,只要懂SQL语言,就能够胜任大数据分析方面的工作,还节省了开发人员的学习成本。原创 2024-03-30 15:20:49 · 1967 阅读 · 0 评论 -
【Hadoop大数据技术】——Hadoop高可用集群(学习笔记)
Hadoop设计之初,在架构设计和应用性能方面存在很多不如人意的地方,如HDFS和YARN集群的主节点只能有一个,如果主节点宕机无法使用,那么将导致HDFS或YARN集群无法使用,针对上述问题,Hadoop在后续的版本更新中做出了改进和完善,用户可以为HDFS和YARN集群添加备用的主节点,这样即使主节点宕机无法使用,备用的主节点也可以代替原有的主节点来维持HDFS和YARN集群能够正常运行,这就是所谓的Hadoop高可用集群。原创 2024-03-21 23:50:42 · 1419 阅读 · 0 评论 -
【Hadoop大数据技术】——ZooKeeper分布式协调服务(学习笔记)
ZooKeeper是一个开源的分布式协调服务,它是Google Chubby的开源实现,其设计目标是将那些复杂且容易出错的分布式应用封装起来,构成一个高效可靠的原语集,并以一系列简单易用的接口提供给用户使用。原创 2024-03-21 21:44:33 · 970 阅读 · 0 评论 -
【Hadoop大数据技术】——MapReduce分布式计算框架(学习笔记)
MapReduce是Hadoop系统核心组件之一,它是一种可用于大数据并行处理的计算模型、框架和平台,主要解决海量数据的计算问题,是目前分布式计算模型中应用较为广泛的一种。原创 2024-03-16 17:46:57 · 1678 阅读 · 0 评论 -
【Hadoop大数据技术】——MapReduce经典案例实战(倒排索引、数据去重、TopN)
MapReduce是一种分布式并行编程模型,是Hadoop核心子项目之一。原创 2024-03-16 13:36:01 · 2345 阅读 · 0 评论 -
【Hadoop大数据技术】——HDFS分布式文件系统(学习笔记)
在NameNode内部是以元数据的形式,维护着两个文件,分别是FsImage镜像文件和EditLog日志文件。其中,FsImage镜像文件用于存储整个文件系统命名空间的信息,EditLog日志文件用于持久化记录文件系统元数据发生的变化。当NameNode启动的时候,FsImage镜像文件就会被加载到内存中,然后对内存里的数据执行记录的操作,以确保内存所保留的数据处于最新的状态,这样就加快了元数据的读取和更新操作。。原创 2024-03-07 14:44:40 · 2606 阅读 · 0 评论 -
【Hadoop大数据技术】——Hadoop概述与搭建环境(学习笔记)
随着大数据时代的到来,大数据已经在金融、交通、物流等各个行业领域得到广泛应用。而Hadoop就是一个用于处理海量数据的框架,它既可以为海量数据提供可靠的存储;也可以为海量数据提供高效的处理。原创 2024-03-05 13:21:04 · 2151 阅读 · 0 评论