2015年03月_Simple_Zz

12月 05月 04月 03月 01月

原创 NameNode 与 SecondaryNameNode 工作机制

分析思路：首先，做个假设：如果元数据存储在 NameNode 节点的磁盘中，因为经常需要进行随机访问、响应客户请求，必然是效率过低。因此，元数据需要存放在内存中。但是，只存在内存中，一旦断电、宕机，元数据丢失，整个集群就无法工作了。因此，必须在磁盘中有备份，在磁盘中备份就是 fsimage，存放在 NameNode 节点对应的磁盘中。这样，又有新问题，当在内存中的元数据更新时，...

2015-03-30 16:38:42 595 1

原创 HDFS 读/写数据流程

HDFS 写数据 HDFS 写数据流程客户端通过 Distributed FileSystem 模块向 namenode 请求上传文件，namenode 检查目标文件是否已存在，父目录是否存在。 namenode 返回是否可以上传。客户端请求第一个 block 上传到哪几个 datanode 服务器上。 namenode 返回3个 datanode 节点，分别为 dn1、d...

2015-03-20 04:24:36 575

原创 HDFS IO流操作

HDFS 文件上传 @Test public void putFileToHDFS() throws Exception { // 1 创建配置信息对象 Configuration conf = new Configuration(); // 2 获取文件系统 FileSystem fs = FileSystem.get(conf); // 3...

2015-03-18 02:16:43 552

原创 HDFS JavaAPI 操作

HDFS 获取文件系统 @Test public void initHDFS() throws Exception{ // 1 创建配置信息对象 Configuration conf = new Configuration(); // 2 获取文件系统 FileSystem fs = FileSystem.get(conf); // 3 打印文件系...

2015-03-09 11:31:44 4237

原创 HDFS 常用命令

文件操作查看列出HDFS下的文件 # bin/hadoop dfs -ls 查看列出HDFS文件下名为 in 的文档中的文件 # bin/hadoop dfs -ls in 上传将hadoop目录下的test1文件上传到HDFS上并重命名为test # bin/hadoop dfs -put test1 test 下载将HDFS中的in文件复制到本...

2015-03-05 12:42:41 3166

原创 HDFS 文件快大小

HDFS 文件块大小 HDFS中的文件在物理上是分块存储（block），块的大小可以通过配置参数( dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128M，老版本中是64M。 HDFS的块比磁盘的块大，其目的是为了最小化寻址开销。如果块设置得足够大，从磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。因而，传输一个由多个块组成的文件的时间取决于磁盘传...

2015-03-03 17:52:12 1035

Join 查找操作的基本原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边，可以有效减少发生内存溢出错误的几率。 Join 查找操作中如果存在多个 join，且所有参与 join 的表中其参与 join 的 key 都相同，则会将所有的 join 合并到一个 mapred 程序中。

2019-07-01

分布式一致性原理与实践

介绍了几种分布式协议，重点讲解Zookeeper高可用服务搭建。

2018-09-02

阿里Java开发规范

2017年10月14日杭州云栖大会，Java代码规约扫描插件全球首发仪式正式启动，规范正式以插件形式公开走向业界，引领Java语言的规范之路。目前，插件已在云效公有云产品中集成，立即体验！（云效>公有云>设置->测试服务->阿里巴巴Java代码规约）。

2018-09-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Simple 专栏

原创 NameNode 与 SecondaryNameNode 工作机制

原创 HDFS 读/写数据流程

原创 HDFS IO流操作

原创 HDFS JavaAPI 操作

原创 HDFS 常用命令

原创 HDFS 文件快大小

Hive优化.docx

分布式一致性原理与实践

阿里Java开发规范

空空如也

原创 NameNode 与 SecondaryNameNode 工作机制

原创 HDFS 读/写 数据流程

原创 HDFS IO流操作

原创 HDFS JavaAPI 操作

原创 HDFS 常用命令

原创 HDFS 文件快大小

Hive优化.docx

分布式一致性原理与实践

阿里Java开发规范

空空如也

原创 HDFS 读/写数据流程