大数据
文章平均质量分 80
清河__
一个想当数学老师的程序员
展开
-
【Hadoop】一、Hadoop入门:基础配置、集群配置、常用脚本
修改 BOOTPROTO 为 static以及添加 IPADDR、GATEWAY、DNS1修改为 hadoop100在主机名映射文件中添加映射关闭防火墙之后检查 ifconfgi 中 ens33 的ip、hostname、ping www.baidu.com 进行检查,都通过则证明网络配置成功。原创 2024-09-20 17:43:24 · 1236 阅读 · 0 评论 -
【大数据】五、yarn基础
YarnYarn 是用来做分布式系统中的资源协调技术MapReduce 1.x对于 MapReduce 1.x 的版本上:由 Client 发起计算请求,Job Tracker 接收请求之后分发给各个TaskTrack进行执行在这个阶段,资源的管理与请求的计算是集成在 mapreduce 上的,这种架构会导致 mapreduce 的功能过于臃肿,也会衍生出一系列的问题。而 YARN 的出现及时的对这个问题作出了改变,YARN 就类似于一个操作系统,mapreduce 就类似于运行在 YARN 这原创 2024-03-22 16:58:09 · 1118 阅读 · 0 评论 -
【大数据】四、HDFS 基础操作
在本地电脑上解压 hadoop.tar.gz,配置环境变量之后 去github 上 把 winutil.exe 和 hadoop.dll 下载到 hadoop 的bin 文件夹下再修改 etc/hadoop-env.cmd 中的 JDK 路径我们使用 IDEA 打开一个 JAVA Maven项目,进行测试</</</</</</</</</</</</原创 2024-03-21 12:18:09 · 487 阅读 · 0 评论 -
【大数据】三、HDFS 基础原理
HDFS 是一种典型的分布式文件系统,但其不是唯一的分布式文件系统HDFS 是一种新型的文件系统,不同于传统的文件系统,新型文件系统解决了传统文件系统存在的负载不均衡与网络瓶颈问题。但归根结底、这些弊端都是由传统文件系统所存在的文件存储大小不均衡造成的:文件在拆分时导致某些磁盘利用率过高等等注意:HDFS 选择使用 块机制 来解决这个问题,HDFS 中,每个块的大小为 128 MB。原创 2024-03-21 12:17:27 · 687 阅读 · 0 评论 -
【大数据】二、HDFS 入门演示
要了解大数据,我们就要先了解什么是数据?数据就是指人们的行为,人们的某个行为都被称为是一项数据,这些数据可以用来对生活中各种各样的事物进行分析,而我们进行分析所需要的技术就是我们所学的大数据的一系列的技术栈所谓大数据,就是指将现在的数据进行处理,并得出一定结果的技术其中,大数据的核心工作就是从海量的高增长、多类别、低信息密度的数据中发掘出高质量的结果由此延伸而出的大数据核心工作就是:数据存储、数据计算、数据传输。原创 2024-03-15 15:49:24 · 992 阅读 · 0 评论 -
【大数据】一、大数据环境配置
按照VMWare的流程创建虚拟机,CentOS7,创建完成之后将其复制三份,使用复制出来的三份进行后续的开发,将主要机器的内存设置为4GB、次要的虚拟机内存设置为2GB。原创 2024-03-15 15:48:24 · 878 阅读 · 0 评论 -
【Scala】一、Scala 语法基础
用于练习以及开发的 Scala 版本:2.11.8这里使用 IDEA 作为 Scala 的 IDE注意,我们必须安装 scala 插件 才可以创建scala项目${s1注意,scala 2.11 必须配合 JDK1.8 进行编译Scala 是一种存在类型推断的语言此时,f 是一个没有返回值的函数,数据类型会被定义为 Unit此时 f 是一个只有返回值为 1 的函数。原创 2024-03-13 16:43:38 · 559 阅读 · 0 评论