杂七杂八

*************************************************************************************************************
*************************************************************************************************************
http://qa.baidu.com/blog/?p=59 --百度hadoop集群测试遇到的问题及测试方法
http://www.infoq.com/cn/news/2010/07/facebook-hadoop-summit --Facebook Hadoop,Hive,HBase和 A/B测试 ps:scribe日志切分对比nginx 服务器切分性能对比
http://blog.csdn.net/v_july_v/article/details/6704077 --学习hadoop内部机制,及淘宝的数据魔方架构内部介绍

首先得分析分布式概念,分布式文件系统、分布式计算
分布式集群分为哪几种。水平集群、垂直集群、

hadoop用java语言实现分布式基础框架,分布式java应用基础

hadoop分布式集群测试方法:

HDFS的吞吐量, 由此推测出其集群中存在的性能。 --HDFS mock 暴风的做法: mapslots * blocksize = 吞吐量 。。map是吞量,reduce的吐量就不好计算了 --
baofeng的HDFS文件块默认为多大 ? 64MB ?

map的分布方式,因该不是一个slot对应一个map

baofeng的hadoop集群中的HDFS访问方式 ?
对PB级的数据量的数据源数据进行分析,测试关注点是其性能及准确性

HDFS ---DistributedFSCheck功能,实现文件系统一致性的分布式检查
TESTDFSIO 分布式的I/O基准
dfsthroughput 测量HDFS的吞吐量
loadgen 通用的MapReduce加载产生器
mrbench 创建大量小作业的MapReduce基准
nnbench NameNode的性能基准
testarrayFile 对有键值对的文本文件的测试
threadedmapbench 对比输出一个排序块的Map作业和输出多个排序块的Map作业的性能

hadoop程序输入目录的标准化,程序往hdfs指定目录输入数据完全没有问题,文件路径和格式均为正确,但是结果文件确实为空。

=============================================================================================================================
一些测试工具
我们常常需要对HDFS或者mapreduce进行一些性能方面的测试,比如测试rpc的性能,测试DFS的IO读写性能,测试DFS的吞吐率性能,测试namenode的benchmark性能,mapreduce的sort性能等等。在hadoop的发行版中,其实已经提供了许多类似的工具,并已经打包成jar,供我们使用。以下是0.20.2中自带的一系列工具列表:

DFSCIOTest Distributed i/o benchmark of libhdfs.
DistributedFSCheck Distributed checkup of the file system consistency.
MRReliabilityTest A program that tests the reliability of the MR framework by injecting faults/failures
TestDFSIO Distributed i/o benchmark.
dfsthroughput measure hdfs throughput
filebench: Benchmark SequenceFile(Input|Output)Format (block,record compressed and uncompressed), Text(Input|Output)Format (compressed and uncompressed)
loadgen Generic map/reduce load generator
mapredtest A map/reduce test check.
minicluster Single process HDFS and MR cluster.
nnbench A benchmark that stresses the namenode.
testbigmapoutput A map/reduce program that works on a very big non-splittable file and does identity map/reduce
testfilesystem A test for FileSystem read/write.
testrpc A test for rpc
testsequencefile A test for flat files of binary key value pairs.
threadedmapbench: A map/reduce benchmark that compares the performance of maps with multiple spills over maps with 1 spill
==================================================================================================================================
hive
hive只是采用了行存储的方式兼存储和读取数据. --效率低
当在hive中读取某一列时,先要取出所有数据然后再取某一行。 --占用较多的磁盘空间

淘宝数据魔方里的缓存穿透、架构、空数据缓存这些和Hadoop一点关系都么有.

关于MR/Hadoop的一些关键点没有讲到,比如:已有的并行计算模型(如:多线程、MPI/OpenCL)存在哪些问题?而MR/Hadoop是如何解决他们的。


Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内 部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。
Namenode执行文件系统的namespace操作,例如 打开、关闭、重命名文件和目录,同时决定block到具体Datanode节点的映射。
Datanode在Namenode的指挥下进行block的创 建、删除和复制。 --切记几个动作
==================================================================================================================================
分布式改造的准入原则
并不是所有的测试执行都可以分布式化,在我们的实际操作过程中,总结出以下几点准入原则,供参考:
1、空白机器可运行。通过一个总控脚本就可以做到依赖环境准备,lib库安装,测试case执行等。
2、测试框架允许case并行。
3、业务层case对外部不存在固定依赖,例如依赖于某个写死的目录。
4、业务层case依赖的server端口,最好是随机的。
5、不允许业务层去操作公共环境。


后续可能的技术方向
1、case按照执行时间切分。按照时间切分来替代按照case数切分。
2、从分布式测试执行过渡到云测试服务。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值