MapReduce on Yarn

MapRduce MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。 MapReduce的思想就是“分而治之”: Map(映射):把复杂的任务分解为若干个“简...

2019-03-15 16:35:15

阅读数 48

评论数 0

HDFS读写流程

HDFS写流程 HDFS写流程: HDFS Client (基于JVM)调用 Distributed FileSystem.create方法,将文件路径传给NameNode,并与NameNode进行 RPC 通信。然后 NameNode 去check该路径这个文件是否已经存在,并check 是...

2019-03-13 13:44:41

阅读数 56

评论数 0

HDFS架构

首先,HDFS是一种主从架构。 包括有: NameNode(NN)名称节点 Secondary NameNode(SNN)第二名称节点 DataNode (DN)数据节点 NameNode NameNode 名称节点,是管理文件系统的命名空间。它维护着文件系统树及整棵树内所有的文...

2019-03-13 11:07:19

阅读数 62

评论数 0

Hadoop MapReduce 上的 WordCount

首先开启hdfs 和 yarn sbin/start-dfs.sh sbin/start-yarn.sh 在 hdfs 上创建目录 hdfs dfs -mkdir -p /wordcount/input 在linux 下创建 a.log b.txt 两个文件,再把两个文件通过p...

2019-03-12 15:56:06

阅读数 59

评论数 0

JPS命令的理解

JPS,其实是JVM Process Status,是JDK提供的一个显示当前所有java进程pid的命令,非常适合在linux上简单察看当前java进程的一些简单情况。 它的位置在JDK里 : /usr/java/jdk1.8.0_45/bin/jps 它对应的进程的标识文件,默认地址为:...

2019-03-09 21:51:51

阅读数 74

评论数 0

log日志分析步骤

cd logs 大数据组件的日志文件分为两种.log .out ,.out 不看 hadoop-hadoop-datanode-hadoop002.log hadoop-用户-----进程名称-----机器名称 (hadoop其实是hdfs,yarn代表yarn) ll -h 查看文件详细信息和大...

2019-03-09 18:37:24

阅读数 72

评论数 0

使HDFS三个进程都以当前机器名启动

etc/hadoop hadoop的配置文件都在这里 hadoop-env.sh 是指的hadoop家目录,jdk目录 core-site.xml 三个组件核心的共有的 hdfs-site.xml mored-site.xml.template yarn-site.xml 部署用机...

2019-03-09 15:21:15

阅读数 76

评论数 0

配置多台机器SSH相互通信信任

1.5台机器执行 ssh-keygen [root@sht-sgmhadoopnn-01 ~]# ssh-keygen Generating public/private rsa key pair. Enter file in which to save the key (/root/.ssh/i...

2019-03-09 14:39:18

阅读数 71

评论数 0

配置ssh localhost无密码信任关系

Setup passphraseless ssh 步骤如下: ssh-keygen 然后三下回车 cd ~/.ssh 文件里有两个密钥文件 一个私钥 一个公钥(.pub) 要无密码访问 需要把公钥输入到认证文件里 cat ~/.ssh/id_rsa.pub &g...

2019-03-08 11:15:22

阅读数 69

评论数 0

Hadoop基础概念

Hadoop 狭义:hadoop软件 hadoop.apache.org 广义:hadoop生态圈(hive zookeeper spark) 版本 用2.x 3.x 需要踩坑 主要用CDH5.x 部署大数据环境 用的是 hadoop2.6.0-cdh5.7.0 baidu : c...

2019-03-08 09:55:05

阅读数 69

评论数 0

SQL语法

SQL字段类型 char 定长字符串 0-255 varchar 变长字符串 0-65535 SQL语言分类 DDL:create ,drop DML:insert,delete,update,select 增删改查 DCL:grant,revoke 自增长主键 id 自增长 ...

2019-03-07 21:30:13

阅读数 86

评论数 0

Hadoop伪分布式安装

1.创建Hadoop用户 2.上传或下载Hadoop安装包 cdh5.7.0 3.部署JDK 4.解压Hadoop安装包 5.配置 /etc/hadoop/core-site.xml: 6.配置ssh localhost无密码信任关系 7.格式化 8.启动 9.hdfs dfs...

2019-03-07 10:56:33

阅读数 67

评论数 0

软件安装部署常用Linux命令总结--未完待续

用户和组 # 创建组 groupadd -g 101 dba

2019-03-07 09:10:17

阅读数 92

评论数 0

MySQL 指令

。。。

2019-03-07 08:14:57

阅读数 80

评论数 0

Linux上手动安装MySQL

下载并校验md5值 // ``下载地址 链接: https://pan.baidu.com/s/1G9OPorT249LhwkZ9AHJShA 提取码: xx4p 复制这段内容后打开百度网盘手机App,操作更方便哦 cd /usr/local rz * md5sum校验文件md5...

2019-03-06 19:53:26

阅读数 125

评论数 0

Linux相关面试准备

有关Linux面试准备查看文件/文件夹字节数常用系统命令 查看文件/文件夹字节数 查看文件的大小: ll - h +文件名 : 可以查看文件内容的实际大小,但是不能显示文件夹的大小。 du - sh +文件名 查看文件夹的大小:du - sh + 文件夹 : 但是,ll -h 和 du...

2019-03-05 14:04:53

阅读数 48

评论数 0

【大数据基础】Linux基础

Linux基础Linux常用命令pwd家目录cd 切换目录目录(路径)clear 清空屏幕ls查看ip创建目录文件/文件夹的移动文件/文件夹的复制复制和移动查看命令帮助查看文件内容(静态)动态(实时)查看文件内容echotouch别名及别名的创建配置全局环境变量文件配置个人环境变量文件删除 rm设...

2019-03-04 11:23:01

阅读数 3222

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭