自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 Hadoop平台搭建(hive前的步骤)

1.1. 将 hadoop-2.7.1 文件夹重命名为 Hadoop。1.4. 执行以下命令修改 hadoop-env.sh 配置文件。在浏览器的地址栏输入:http://master:8088。配置两个子节点slave1、slave2的JDK环境。1.3. 使配置的 Hadoop 的环境变量生效。:所有的身份验证令牌已经成功更新。表示处理成功,处理的结果存放在。4.3.运行WordCount。案例,计算数据文件中各单词的频度。,将要测试的数据内容输入到。这行,将其改为如下所示内容。

2024-04-20 15:35:12 799 2

原创 Hive 组件安装配置

1.使用 root 用户,将 Hive 安装包 /opt/software/apache-hive-2.0.0-bin.tar.gz 路解压到/usr/local/src 路径下。2.将解压后的 apache-hive-2.0.0-bin 文件夹更名为 hive;3.修改 hive 目录归属用户和用户组为 hadoop(1)关闭 Linux 系统防火墙,并将防火墙设定为系统开机并不自动启动。# 关闭防火墙服务# 设置防火墙服务开机不启动(2)卸载 Linux 系统自带的 MariaDB。

2024-04-19 16:33:20 663

原创 配置IP和搭建仓库的相关内容

local] #源IDname=rhel #源名称baseurl=file:///media #软件包的位置(此处是本地,若在网络上,则填写相应的url)enable=1 #开机是否启动。1为开机启动,0为开机不启动gpgcheck=0 #下载完的包是否校验。

2024-03-20 17:24:29 715 1

原创 Hadoop的秘密

HDFS是整个Hadoop体系的基础,负责数据的存储与管理,Hdfs有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。mapreduce的shuffle的过程中相当的复杂,虽然shuffle的过程是奇迹发生的地方,但是这里边做的事太多了,很多没有法子去掉,也就是说有可能对于场景无用的操作也做了,比如排序,本身其实我们有可能不需要sort,但是基于MR的特性,它必须依靠sort,这样白白浪费了性能。

2024-03-10 18:14:26 702 1

原创 大数据相关介绍

10、资源管理器的简单介绍(YARN和mesos)随着互联网的高速发展,基于数据 密集型应用 的计算框架不断出现,从支持离线处理的mapreduce,到支持在线处理的storm,从迭代式计算框架到 流式处理框架s4,...,在大部分互联网公司中,这几种框架可能都会采用,比如对于搜索引擎公司,可能的技术方法如下:网页建索引采用mapreduce框架,自然语言处理/数据挖掘采用spark,对性能要求到的数据挖掘算法用mpi等。它一般是自描述的,数据的结构和内容混在一起,没有明显的区分。

2024-03-07 21:25:27 972 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除