大数据复习知识点1

柚乐果果

于 2024-09-28 11:37:41 发布

阅读量259

点赞数 7

文章标签：大数据

本文链接：https://blog.csdn.net/2301_81687813/article/details/142613303

版权

1、HDFS和MapReduce的起源：HDFS起源于Google的GFS论文，它是为了解决大规模数据集的存储问题而设计的。而MapReduce则是Google为了解决大规模数据处理问题而提出的一种并行计算模型。

2、YARN的作用：YARN是Hadoop的资源管理器，它负责管理和调度集群中的计算资源，使得Hadoop能够支持各种计算模型和应用程序。

3、Hive的作用：Hive是一个基于Hadoop的数据仓库工具，它可以将结构化的数据文件映射为数据库表，并提供SQL查询功能，使得大规模数据的查询和分析变得更加简单。

4、Spark的特点：Spark拥有先进的架构，高效的数据处理能力和易用的API，还支持多种机器学习和图计算库，非常适合大规模数据处理和机器学习任务。

5、虚拟机的网络连接方式：虚拟机有三种网络连接方式：桥接模式、NAT模式和仅主机模式。桥接模式让虚拟机和主机处在同一局域网下；NAT模式让虚拟机可以访问外网，但其他主机不能访问虚拟机；仅主机模式则让虚拟机只能访问主机，不能访问外网。

6、查看主机名的命令：可以使用hostname命令来查看主机名。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

柚乐果果

关注关注

7
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

大数据导论知识点可供考试复习用

12-25

大数据导论知识点可供考试复习用

南软大数据课程1复习资料

03-07

PPT通常会涵盖课程的主要概念、理论框架、关键技术和案例分析，是理解和复习大数据核心知识点的重要工具。可能包括Hadoop、Spark、Hive、HBase等大数据处理框架的介绍，以及大数据生态系统、数据挖掘、机器学习等...

参与评论您还未登录，请先登录后发表或查看评论

Hadoop知识点复习.png

08-10

Hadoop

BUPT大数据技术导论期末复习提纲

11-07

《BUPT大数据技术导论期末复习提纲》涵盖了大数据技术的基础知识，主要针对北京邮电大学数据...这些知识点构成了大数据技术基础的核心，为理解和应用大数据提供了基础。对于期末复习，理解并掌握这些概念和技术是关键。

大数据期末复习总结.pdf

07-08

大数据技术是近年来信息技术领域发展最为迅速的领域之一，而Hadoop作为大数据处理技术的代表，...这些知识点对于大数据工程师来说是不可或缺的。随着大数据技术的不断发展，掌握这些知识有助于在相关领域中保持竞争力。

如何实现全行业证照一站式结构化识别？Textln企业资质证照识别上线！

b_qixin的博客

09-26

299

对于无Key的Value信息，例如下图中的证照名称“药品经营许可证”，模型也可基于强大的语义理解能力与所具备的专项领域知识，实现准确完整的关键信息抽取。，并理解信息间的对应关系，以“K-V对”的形式自动实现证照中全部关键信息的结构化抽取，提升信息数据的提取和录入效率。除抽取证照中的文本信息外，模型集成了印章检测能力，可以捕捉资质证照中的印章信息，并输出印章的类型、颜色、形状及内容。自动识别录入企业经营资质信息，可应用于机构开户、经营性贷款审批等金融服务场景，提升信息录入效率，控制业务风险。

从 Kafka 到 WarpStream：用 MinIO 简化数据流

MinIO

09-27

667

虽然 Apache Kafka 长期以来一直是流数据的行业标准，但新的创新替代方案正在重塑生态系统。其中之一是 WarpStream，它最近在 Confluent 的所有权下进入了新的篇章。此次收购进一步增强了 WarpStream 提供高性能、云原生数据流的能力，巩固了其作为 Kafka 的可扩展且经济高效的替代方案的地位。本教程将引导您开始使用 WarpStream 和 MinIO，并解释结合使用这些工具如何为您的流媒体架构提供简单性、灵活性和成本节约。

基于Hive和Hadoop的哔哩哔哩网站分析系统

图南的博客

09-27

211

本项目是一个基于大数据技术的哔哩哔哩平台分析系统，旨在为用户提供全面的哔哩哔哩视频数据和深入的用户行为分析。系统采用 Hadoop 平台进行大规模数据存储和处理，利用 MapReduce 进行数据分析和处理，通过 Sqoop 实现数据的导入导出，以 Spark 为核心进行高效的数据处理。整个系统结合了大数据处理技术，为用户提供精准的内容推荐和深入的用户兴趣分析，帮助平台更好地了解视频趋势和用户需求。

[单master节点k8s部署]23.构建EFK日志收集平台（二）

weixin_45396500的博客

09-24

970

这里的PVC的name是data，这里容器绑定的存储名称也是data，路径为/usr/share/elasticsearch/data。创建了elasticsearch的服务（elasticsearch_svc.yaml）,定义了两个接口，一个是对外的，一个是elasticsearch集群内部通信的。这里的三个初始化容器是为了更好的准备elasticsearch的容器环境，确保在elasticsearch启动之前，所有的权限都已经配置正确。这里需要介绍pod的创建顺序。

当微服务中调度返回大数据量时如何处理

ZDFXN的博客

09-27

195

总之，当需要返回大数据量时，可以根据具体的需求和技术特点选择合适的方案。同时，通过限制每页显示的数据条数，可以减少网络传输的负担。同时，通过分布式计算，可以实现数据的并行处理，提高处理效率。同时，通过异步处理，可以避免阻塞主线程，提高系统的并发能力。适用场景：适用于需要实时处理大量数据的场景，如电商网站的实时交易监控、物联网设备的数据采集等。适用场景：适用于需要展示大量数据列表的场景，如电商平台的商品列表、社交媒体的动态列表等。适用场景：适用于需要频繁读取同一份数据的场景，如用户信息查询、热点数据统计等。

微服务--SpringAMQP

最新发布

weixin_51933701的博客

09-27

672

高级消息队列协议，是应用程序之间传递业务消息的开放标准，与语言和平台无关，更符合微服务架构中独立性的要求。：基于AMQP协议定义的一套API规范，提供了模板来发送和接收消息。是基础抽象，是底层的默认实现。SpringAMQP利用SpringBoot实现了自动装配，使用非常方便。

Doris的Routine Load方式消费Kafka数据进入Doris

qq_25954159的博客

09-24

343

最后kafka的数据就可以源源不断的存储到doris表里面了。假设kafka已有嵌套JSON数据格式为。

hive/impala/mysql几种数据库的sql常用写法和函数说明

biqidaoer的专栏

09-27

156

做大数据开发的时候，会在几种库中来回跳，同一个需求，不同库函数和写法会有出入，在此做汇总沉淀。

Python/大数据/机器识别毕业设计选题题目推荐

初尘屿风的博客

09-27

554

基于Python和Diango在线购物商城系统+报告文档+指导搭建视频基于深度学习的人脸识别与管理系统，Python实现基于Python/机器学习链家网新房数据可视化及预测系统Python豆瓣电影情感分析推荐系统+爬虫+可视化，过滤算法基于python的django框架生鲜商城管理系统设计与实现基于Python的Flask微博话题舆情分析可视化系统设计基于Python豆瓣电影数据可视化分析系统+毕业论文+指导搭建视频基于Python天气预报数据可视化分析系统+毕业论文基于Python的深度学习音乐推荐系统+

【大数据】大数据运维方案浅析总结

wnm23的专栏

09-27

619

流行的大数据运维管理，包括Cloudera的CDH和CDP、Hortonworks的HDP、Apache的Ambari、国产开源平台Datasophon，以及自动化运维工具Ansible和SaltStack。

Rabbitmq消息队列，安装，使用，三种工作模式

Cao_XinYang的博客

09-22

1229

消息队列中间件是分布式系统中重要的组件，主要解决应用耦合、异步消息、流量削锋等问题。实现高性能、高可用、可伸缩和最终一致性架构。是大型分布式系统不可缺少的中间件。目前在生产环境，使用较多的消息队列有ActiveMQ、RabbitMQ、ZeroMQ、Kafka、MetaMQ、RocketMQ等。MQ全称 Message Queue（[kjuː]）（消息队列），是在消息的传输过程中保存消息的容器。多用于分布式系统之间进行通信。（队列是一种容器，用于存放数据的都是容器，存放消息的就是消息队列）

Kafka系列之：安装部署CMAK，CMAK管理大型Kafka集群参数调优

zhengzaifeidelushang的博客

09-27

121

Kafka系列之：安装部署CMAK，CMAK管理大型Kafka集群参数调优

RabbitMQ 队列之战：Classic 和 Quorum 的性能洞察

09-25

759

RabbitMQ是一个功能强大且广泛使用的消息代理，它通过处理消息的传输、存储和交付来促进分布式应用程序之间的通信。作为消息代理，RabbitMQ 充当生产者（发送消息的应用程序）和使用者（接收消息的应用程序）之间的中介，即使在复杂的分布式环境中也能确保可靠的消息传递。RabbitMQ 的核心组件之一是队列，消息在其中临时存储，直到被使用。队列在 RabbitMQ 的架构中起着关...

数字通云平台智慧政务 login 存在登录绕过

iSee857的博客

09-23

601

数字通云平台智慧政务OA产品是基于云计算、大数据、人工智能等先进技术，为政府部门量身定制的智能化办公系统。该系统旨在提高政府部门的办公效率、协同能力和信息资源共享水平，推动电子政务向更高层次发展。数字通云平台智慧政务OA login接口存在未授权获取默认cookie，未经身份验证的远程攻击者可利用该漏洞伪造登录，从而接管整个系统。该漏洞是由于系统中存在默认cookie获取接口导致的权限绕过。系统禁用默认获取cookie接口。将cookie 写入到浏览器中。