java大数据Day09

最新推荐文章于 2023-02-21 20:39:45 发布

hua1205944995

最新推荐文章于 2023-02-21 20:39:45 发布

阅读量103

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/hua1205944995/article/details/90665953

版权

大数据专栏收录该内容

10 篇文章 0 订阅

订阅专栏

一、linux

(一)远程免密登录

实现方式：
A想免密登录B（第一台免密登录第二台）

在A机器上生成公钥私钥对：ssh-keygen
将公钥发送给B：ssh-copy-id root@192.168.157.142
远程免密登录：ssh 192.168.157.142

可以通过查看IP地址的方式验证是否成功
退出登录：logout
本机的公钥文件：/root/.ssh/id_rsa_pub
本机的私钥文件：/root/.ssh/id_rsa

（二）tar

打包：将多个文件和目录合并为一个总文件
压缩：将一个大文件通过压缩使得该文件的大小变小
压缩方式：gzip/bzip2/zip/rar

tar [选项] 参数
-c建立打包文件
-f指定打包文件名称
-v 显示打包过程
-x 解包
-z 表示解压方式为gzip
经常使用的组合：打包：tar -cvf 打包之后文件的名字要打包的目录
解包：tar -xvf 压缩包的名字

（三）查看进程

ps -aux | grep hadoop
jps

二、Hadoop

Hadoop是Apache提供的开源的离线处理框架，（离线处理：海量数据的分布式存储和海量数据的分布式计算），来源谷歌的三篇论文（谷歌搜索引擎的原理：利用爬虫，把整个互联网的信息爬下来，数据保存到本地，对其建立索引，基于预先做好的索引，找到对应的数据，把对应的页面返回给用户）,doug cutting根据《GFS》《MapReduce》《bigtable》进行了开源的实现，做出来了《hdfs》（海量数据的分布式存储）《MapReduce》（海量数据的分布式运算）。
bigtable单独对应了一个开源的技术，叫做hbase（分布式数据库）
Hadoop2.0现在由三个子技术组成，分别是hdfs/mapreduce/yarn（资源协调工具）

1. 传统数据和大数据的比较

传统数据：基本上都是GB到TB级别的数据，增长不是特别的快，主要为结构化的数据，传统的业务都是这种结构化的数据，主要用来做这个统计、报表
大数据：基本上都是TB、PB级别的数据，持续的增长，以半结构化和非结构化的数据为主，主要是用来做数据挖掘和预测性分析的。（海量数据的获取、存储、聚合、管理以及对数据进行深度分析，这就是大数据技术产生的背景）

2. Hadoop安装配置

三种安装方式：
（1）完全分布式模式：支持hdfs和MapReduce，支持yarn
（2）伪分布式模式：支持hdfs和MapReduce，不支持yarn
（3）单机模式：用来测试

hua1205944995

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java大数据Day09

一、linux(一)远程免密登录实现方式：A想免密登录B（第一台免密登录第二台）在A机器上生成公钥私钥对：ssh-keygen将公钥发送给B：ssh-copy-id root@192.168.157.142远程免密登录：ssh 192.168.157.142可以通过查看IP地址的方式验证是否成功退出登录：logout本机的公钥文件：/root/.ssh/id_rsa_pub...
复制链接

扫一扫