一个装的很像大神的人-CSDN博客

原创 HDFS数据块大小设计策略

默认大小： HDFS中的文件在物理上是分块存储(block)，默认大小在hadoop2.x版本中是128M，老版本中是64M。为什么是64/128M?：原因：文件块越大，分割数越少，寻址时间越短，但磁盘传输时间越长；文件块越小，分割数越多，寻址时间越长，但磁盘传输时间越短；寻址时间：*HDFS中找到目标文件块（block）所需要的时间。目的：尽可能保持使寻址时间仅占传输时间的1% 如果寻址时间约为10ms，而传输速率为100MB/s 我们要将块大小设置约为100MB。默认的块大小128MB。块

2020-05-30 09:57:22 405

原创 linux快速生成为大文件用于测试

生产文件（占硬盘空间）： #生成6G的file 文件，文件内容为全0（因从/dev/zero中读取，/dev/zero为0源）。 dd if=/dev/zero of=file bs=1M count=6000 #此命令生成的文件会写入硬盘，文件产生的速度和硬盘读写速度有关系，读写速度越快，产生文件越快。示例图片：生产文件（不占硬盘空间） #如果只想产生一个大文件的数据，但是并不需要占用磁盘空间，则可以使用如下命令： dd if=/dev/zero of=file bs=1M count=0 see

2020-05-30 09:20:59 855

原创 HDFS回收站机制

回收站机制： HDFS会为每一个用户创建一个回收站目录：/user/${user.name}/.Trash。用户删除文件时，文件并不是彻底地消失了，而是mv到了/user/${user.name}/.Trash这个文件下。注意：如果用户的回收站中已经存在了用户当前删除的文件/目录，则HDFS会将这个当前被删除的文件/目录重命名，命名规则很简单就是在这个被删除的文件/目录名后面紧跟一个编号(从1开始直到没有重名为止) 定期删除机制：在HDFS内部的具体实现就是在NameNode中开启了一个后台线程Empti

2020-05-30 09:08:52 410

转载 Hive创建dual测试表

#创建dual表 create table if not exists dual(test string); #插入一条数据 insert into table dual values(''); #测试 select 1+2 as add from dual;

2019-05-24 10:21:51 439

原创 Hive查询结果导出

导出到本地 #未登陆hive客户端时 #第一种： #其中test.csv文件无效预先创建 hive -e "select * from test" >> /tmp/test.csv #第二种：#其中test.hql为查询语句 hive -f test.hql >> /tmp/test.csv #已登陆hive客户端时其中/tmp为目录默认生成00000_...

2019-05-24 10:04:30 1656 2

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人