java大数据Day09

一、linux

(一)远程免密登录

实现方式:
A想免密登录B(第一台免密登录第二台)

  1. 在A机器上生成公钥私钥对:ssh-keygen
  2. 将公钥发送给B:ssh-copy-id root@192.168.157.142
  3. 远程免密登录:ssh 192.168.157.142

可以通过查看IP地址的方式验证是否成功
退出登录:logout
本机的公钥文件:/root/.ssh/id_rsa_pub
本机的私钥文件:/root/.ssh/id_rsa

(二)tar

打包:将多个文件和目录合并为一个总文件
压缩:将一个大文件通过压缩使得该文件的大小变小
压缩方式:gzip/bzip2/zip/rar

tar [选项] 参数
-c建立打包文件
-f指定打包文件名称
-v 显示打包过程
-x 解包
-z 表示解压方式为gzip
经常使用的组合:打包:tar -cvf 打包之后文件的名字 要打包的目录
解包:tar -xvf 压缩包的名字

(三)查看进程

ps -aux | grep hadoop
jps

二、Hadoop

Hadoop是Apache提供的开源的离线处理框架,(离线处理:海量数据的分布式存储和海量数据的分布式计算),来源谷歌的三篇论文(谷歌搜索引擎的原理:利用爬虫,把整个互联网的信息爬下来,数据保存到本地,对其建立索引,基于预先做好的索引,找到对应的数据,把对应的页面返回给用户),doug cutting根据《GFS》《MapReduce》《bigtable》进行了开源的实现,做出来了《hdfs》(海量数据的分布式存储)《MapReduce》(海量数据的分布式运算)。
bigtable单独对应了一个开源的技术,叫做hbase(分布式数据库)
Hadoop2.0现在由三个子技术组成,分别是hdfs/mapreduce/yarn(资源协调工具)

1. 传统数据和大数据的比较

传统数据:基本上都是GB到TB级别的数据,增长不是特别的快,主要为结构化的数据,传统的业务都是这种结构化的数据,主要用来做这个统计、报表
大数据:基本上都是TB、PB级别的数据,持续的增长,以半结构化和非结构化的数据为主,主要是用来做数据挖掘和预测性分析的。(海量数据的获取、存储、聚合、管理以及对数据进行深度分析,这就是大数据技术产生的背景)

2. Hadoop安装配置

三种安装方式:
(1)完全分布式模式:支持hdfs和MapReduce,支持yarn
(2)伪分布式模式:支持hdfs和MapReduce,不支持yarn
(3)单机模式:用来测试

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值