自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 HDFS数据块大小设计策略

默认大小: HDFS中的文件在物理上是分块存储(block),默认大小在hadoop2.x版本中是128M,老版本中是64M。 为什么是64/128M?: 原因: 文件块越大,分割数越少,寻址时间越短,但磁盘传输时间越长; 文件块越小,分割数越多,寻址时间越长,但磁盘传输时间越短; 寻址时间:*HDFS中找到目标文件块(block)所需要的时间。 目的:尽可能保持使寻址时间仅占传输时间的1% 如果寻址时间约为10ms,而传输速率为100MB/s 我们要将块大小设置约为100MB。默认的块大小128MB。 块

2020-05-30 09:57:22 370

原创 linux快速生成为大文件用于测试

生产文件(占硬盘空间): #生成6G的file 文件,文件内容为全0(因从/dev/zero中读取,/dev/zero为0源)。 dd if=/dev/zero of=file bs=1M count=6000 #此命令生成的文件会写入硬盘,文件产生的速度和硬盘读写速度有关系,读写速度越快,产生文件越快。 示例图片: 生产文件(不占硬盘空间) #如果只想产生一个大文件的数据,但是并不需要占用磁盘空间,则可以使用如下命令: dd if=/dev/zero of=file bs=1M count=0 see

2020-05-30 09:20:59 824

原创 HDFS回收站机制

回收站机制: HDFS会为每一个用户创建一个回收站目录:/user/${user.name}/.Trash。用户删除文件时,文件并不是彻底地消失了,而是mv到了/user/${user.name}/.Trash这个文件下。注意:如果用户的回收站中已经存在了用户当前删除的文件/目录,则HDFS会将这个当前被删除的文件/目录重命名,命名规则很简单就是在这个被删除的文件/目录名后面紧跟一个编号(从1开始直到没有重名为止) 定期删除机制: 在HDFS内部的具体实现就是在NameNode中开启了一个后台线程Empti

2020-05-30 09:08:52 367

转载 Hive创建dual测试表

#创建dual表 create table if not exists dual(test string); #插入一条数据 insert into table dual values(''); #测试 select 1+2 as add from dual;

2019-05-24 10:21:51 428

原创 Hive查询结果导出

导出到本地 #未登陆hive客户端时 #第一种: #其中test.csv文件无效预先创建 hive -e "select * from test" >> /tmp/test.csv #第二种:#其中test.hql为查询语句 hive -f test.hql >> /tmp/test.csv #已登陆hive客户端时 其中/tmp为目录 默认生成00000_...

2019-05-24 10:04:30 1582 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除