- 博客(5)
- 收藏
- 关注
原创 HDFS数据块大小设计策略
默认大小: HDFS中的文件在物理上是分块存储(block),默认大小在hadoop2.x版本中是128M,老版本中是64M。 为什么是64/128M?: 原因: 文件块越大,分割数越少,寻址时间越短,但磁盘传输时间越长; 文件块越小,分割数越多,寻址时间越长,但磁盘传输时间越短; 寻址时间:*HDFS中找到目标文件块(block)所需要的时间。 目的:尽可能保持使寻址时间仅占传输时间的1% 如果寻址时间约为10ms,而传输速率为100MB/s 我们要将块大小设置约为100MB。默认的块大小128MB。 块
2020-05-30 09:57:22 405
原创 linux快速生成为大文件用于测试
生产文件(占硬盘空间): #生成6G的file 文件,文件内容为全0(因从/dev/zero中读取,/dev/zero为0源)。 dd if=/dev/zero of=file bs=1M count=6000 #此命令生成的文件会写入硬盘,文件产生的速度和硬盘读写速度有关系,读写速度越快,产生文件越快。 示例图片: 生产文件(不占硬盘空间) #如果只想产生一个大文件的数据,但是并不需要占用磁盘空间,则可以使用如下命令: dd if=/dev/zero of=file bs=1M count=0 see
2020-05-30 09:20:59 855
原创 HDFS回收站机制
回收站机制: HDFS会为每一个用户创建一个回收站目录:/user/${user.name}/.Trash。用户删除文件时,文件并不是彻底地消失了,而是mv到了/user/${user.name}/.Trash这个文件下。注意:如果用户的回收站中已经存在了用户当前删除的文件/目录,则HDFS会将这个当前被删除的文件/目录重命名,命名规则很简单就是在这个被删除的文件/目录名后面紧跟一个编号(从1开始直到没有重名为止) 定期删除机制: 在HDFS内部的具体实现就是在NameNode中开启了一个后台线程Empti
2020-05-30 09:08:52 410
转载 Hive创建dual测试表
#创建dual表 create table if not exists dual(test string); #插入一条数据 insert into table dual values(''); #测试 select 1+2 as add from dual;
2019-05-24 10:21:51 439
原创 Hive查询结果导出
导出到本地 #未登陆hive客户端时 #第一种: #其中test.csv文件无效预先创建 hive -e "select * from test" >> /tmp/test.csv #第二种:#其中test.hql为查询语句 hive -f test.hql >> /tmp/test.csv #已登陆hive客户端时 其中/tmp为目录 默认生成00000_...
2019-05-24 10:04:30 1656 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人