2401_82431992-CSDN博客

原创 Hadoop平台搭建（hive前的步骤）

1.1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop。1.4. 执行以下命令修改 hadoop-env.sh 配置文件。在浏览器的地址栏输入：http://master:8088。配置两个子节点slave1、slave2的JDK环境。1.3. 使配置的 Hadoop 的环境变量生效。：所有的身份验证令牌已经成功更新。表示处理成功，处理的结果存放在。4.3.运行WordCount。案例，计算数据文件中各单词的频度。，将要测试的数据内容输入到。这行，将其改为如下所示内容。

2024-04-20 15:35:12 1052 2

原创 Hive 组件安装配置

1.使用 root 用户，将 Hive 安装包 /opt/software/apache-hive-2.0.0-bin.tar.gz 路解压到/usr/local/src 路径下。2.将解压后的 apache-hive-2.0.0-bin 文件夹更名为 hive；3.修改 hive 目录归属用户和用户组为 hadoop（1）关闭 Linux 系统防火墙，并将防火墙设定为系统开机并不自动启动。# 关闭防火墙服务# 设置防火墙服务开机不启动（2）卸载 Linux 系统自带的 MariaDB。

2024-04-19 16:33:20 675

原创配置IP和搭建仓库的相关内容

local] #源IDname=rhel #源名称baseurl=file:///media #软件包的位置（此处是本地，若在网络上，则填写相应的url）enable=1 #开机是否启动。1为开机启动，0为开机不启动gpgcheck=0 #下载完的包是否校验。

2024-03-20 17:24:29 728 1

原创 Hadoop的秘密

HDFS是整个Hadoop体系的基础，负责数据的存储与管理，Hdfs有着高容错性的特点，并且设计用来部署在低廉的硬件上，适合那些有着超大数据集的应用程序。而且它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序。mapreduce的shuffle的过程中相当的复杂,虽然shuffle的过程是奇迹发生的地方,但是这里边做的事太多了,很多没有法子去掉,也就是说有可能对于场景无用的操作也做了,比如排序,本身其实我们有可能不需要sort,但是基于MR的特性,它必须依靠sort,这样白白浪费了性能。

2024-03-10 18:14:26 710 1

原创大数据相关介绍

10、资源管理器的简单介绍（YARN和mesos）随着互联网的高速发展，基于数据密集型应用的计算框架不断出现，从支持离线处理的mapreduce，到支持在线处理的storm，从迭代式计算框架到流式处理框架s4，...，在大部分互联网公司中，这几种框架可能都会采用，比如对于搜索引擎公司，可能的技术方法如下：网页建索引采用mapreduce框架，自然语言处理/数据挖掘采用spark，对性能要求到的数据挖掘算法用mpi等。它一般是自描述的，数据的结构和内容混在一起，没有明显的区分。

2024-03-07 21:25:27 1015 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 Hadoop平台搭建（hive前的步骤）

原创 Hive 组件安装配置

原创 配置IP和搭建仓库的相关内容

原创 Hadoop的秘密

原创 大数据相关介绍

空空如也

空空如也

原创配置IP和搭建仓库的相关内容

原创大数据相关介绍