点评官-CSDN博客

原创搭建hadoop伪分布式

卸载自带 OpenJDK[root@master ~]# rpm -qa | grep java卸载相关服务，键入命令 rpm –e –-nodeps 删除的包 [root@master ~]# rpm -qa | grep java[root@master ~]# java --versionbash: java: 未找到命令安装 JDK安装命令如下，将安装包解压到/usr/local/src 目录下，将安装包放在了root目录下[root@master ~]# tar -zxvf jdk-8u152

2024-04-26 17:28:22 528 5

原创 HIVE!

1. 解压安装文件 [root@master ~]# tar zxf tools/apache-hive-2.0.0-bin.tar.gz -C /usr/local/src/ [root@master ~]# mv /usr/local/src/apache-hive-2.0.0-bin/ /usr/local/src/hive [root@master ~]# chown -R hadoop:hadoop /usr/local/src/hive。

2024-04-12 13:54:01 761 1

原创不得不说的二三事

一配置永久网络ip。二设置本地计算机网络。

2024-03-22 14:27:41 132 1

原创 hadoop生态圈组件

这样可以确保数据的可靠性和容错性。\n\nMapReduce是一种基于磁盘的分布式并行批处理的计算模型，用于处理和生成大型数据集，他将计算任务分为两个阶段：map阶段和reduce阶段，MapReduce用于在HDFS上处理大量数据，尤其是批量处理任务。Flink是一个基于内存的分布式并行处理框架，类似与Spark，但是在部分设计思想方面有很多不同的，对与Flink而言，适合处理事实数据和流式数据，具有更好的状态管理和任务调度能力，而Spark适合处理离线批处理数据，，具有更好的内存管理和执行引擎能力。

2024-03-15 14:31:54 2414 1

转载大数据博客作业

n\n2.Variety:数据类型多\n大数据所处理的计算机数据类型早已不是单一的文本形式或者结构化数据库中的表，它包括订单、日志、BLOG、微博、音频、视频等各种复杂结构的数据。如何通过强大的机器学习和高级分析更迅速地完成数据的价值“提纯”，挖掘出大数据的潜在价值，这是目前大数据应用背景下苛待解决的难题。非结构化数据：不方便用数据库二维逻辑表来表现的数据，包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。

2024-03-08 13:53:30 31 1

二(2).docx

2024-03-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 搭建hadoop伪分布式