大数据
文章平均质量分 96
无能力者CC
有空一起写bug。
展开
-
大数据技术之(HDFS)
HDFS第1章 HDFS概述1.1 HDFS产出背景及定义HDFS概述1.2 HDFS 优缺点HDFS优缺点1.3 HDFS 组成架构第2章 HDFS的Shell操作(面试开发重点)第3章 HDFS客户端操作(开发重点)第4章 HDFS的数据流(面试重点)第1章 HDFS概述第1章 HDFS概述第1章 HDFS概述第1章 HDFS概述第1章 HDFS概述二级目录三级目录 第1章 HDFS概述 1.1 HDFS产出背景及定义 HDFS概述 1.1 HDFS产生背景 随着数据量越来越大,在一个操作系统存不下所原创 2021-01-02 01:35:56 · 332 阅读 · 0 评论 -
大数据技术之Hadoop入门(六)
第6章 常见错误及解决方案 1)防火墙没关闭、或者没有启动YARN INFO client.RMProxy: Connecting to ResourceManager at hadoop108/192.168.10.108:8032 2)主机名称配置错误 3)IP地址配置错误 4)ssh没有配置好 5)root用户和atcbh两个用户启动集群不统一 6)配置文件修改不细心 7)未编译源码 8)不识别主机名称 java.net.UnknownHostException: hadoop102: hadoop1原创 2020-12-29 16:04:49 · 105 阅读 · 0 评论 -
大数据技术之Hadoop入门(五)
第5章 Hadoop编译源码(面试重点) 前期准备工作 1.CentOS联网 配置CentOS能连接外网。Linux虚拟机ping www.baidu.com 是畅通的 注意:采用root角色编译,减少文件夹权限出现问题 2. jar包准备(hadoop源码、JDK8、maven、ant 、protobuf) (1)hadoop-2.7.2-src.tar.gz (2)jdk-8u112-linux-x64.tar.gz (3)apache-ant-1.9.9-bin.tar.gz(build工具,打原创 2020-12-29 16:00:30 · 108 阅读 · 0 评论 -
大数据技术之Hadoop入门(四)
第4章 Hadoop运行模式 Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。 Haoop官网网站:http://hadoop.apache.org/ 本地运行模式 1、官方Grep案例 2、官方WordCount案例 这句话是什么意思呢,使用hadoop-mapreduce-examples-2.7.2.jar这个他原本就存在的案例,从input文件夹下面寻找到符合 'dfs[a-z.]+'这个正则表达式的文件名,放到output文件下面去。 但是要注意的是out原创 2020-12-24 18:49:37 · 131 阅读 · 0 评论 -
大数据技术之Hadoop入门(三)
第3章 Hadoop运行环境搭建(开发重点) 虚拟机环境准备 1、克隆虚拟机 2、修改克隆虚拟机的静态IP 3、修改主机名 4、关闭防火墙 5、创建atcbh用户 6、配置atcbh用户具有root权限 7、在/opt目录下创建文件夹 drwxr-xr-x. 2 atguigu atguigu 4096 1月 17 14:38 software 安装 JDK 卸载现有JDK (1)查询是否安装Java软件: [atcbh@hadoop101 opt]$ rpm -qa | grep j原创 2020-12-23 20:50:13 · 97 阅读 · 0 评论 -
大数据技术之Hadoop入门(二)
第二章 从Hadoop框架讨论大数据生态 1、Hadoop是什么 1、Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2、主要解决,海量数据的存储和海量数据的分析计算问题 3、广义上来说,Hadoop通常是指一个更广泛的概念一Hadoop生态圈。 2、Hadoop发展历史 Hadoop的三大发行版本 Hadoop三大发行版本:Apache、Cloudera、Hortonworks。 Apache版本最原始(最基础)的版本,对于入门学习最好。 Cloudera原创 2020-12-23 19:22:37 · 113 阅读 · 0 评论 -
大数据技术之Hadoop入门(一)
方法分别原创 2020-12-23 17:47:56 · 149 阅读 · 0 评论