杂七杂八

最新推荐文章于 2024-10-02 20:21:42 发布

webinprice

最新推荐文章于 2024-10-02 20:21:42 发布

阅读量96

点赞数

分类专栏： computer systems note 文章标签： hadoop

本文链接：https://blog.csdn.net/webinprice/article/details/84283833

版权

computer systems note 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

*************************************************************************************************************
*************************************************************************************************************
http://qa.baidu.com/blog/?p=59 --百度hadoop集群测试遇到的问题及测试方法
http://www.infoq.com/cn/news/2010/07/facebook-hadoop-summit --Facebook Hadoop，Hive，HBase和 A/B测试 ps:scribe日志切分对比nginx 服务器切分性能对比
http://blog.csdn.net/v_july_v/article/details/6704077 --学习hadoop内部机制，及淘宝的数据魔方架构内部介绍

首先得分析分布式概念，分布式文件系统、分布式计算
分布式集群分为哪几种。水平集群、垂直集群、

hadoop用java语言实现分布式基础框架，分布式java应用基础

hadoop分布式集群测试方法：

HDFS的吞吐量，由此推测出其集群中存在的性能。 --HDFS mock 暴风的做法： mapslots * blocksize = 吞吐量。。map是吞量，reduce的吐量就不好计算了 --
baofeng的HDFS文件块默认为多大？ 64MB ？

map的分布方式，因该不是一个slot对应一个map

baofeng的hadoop集群中的HDFS访问方式？
对PB级的数据量的数据源数据进行分析，测试关注点是其性能及准确性

HDFS ---DistributedFSCheck功能，实现文件系统一致性的分布式检查
TESTDFSIO 分布式的I/O基准
dfsthroughput 测量HDFS的吞吐量
loadgen 通用的MapReduce加载产生器
mrbench 创建大量小作业的MapReduce基准
nnbench NameNode的性能基准
testarrayFile 对有键值对的文本文件的测试
threadedmapbench 对比输出一个排序块的Map作业和输出多个排序块的Map作业的性能

hadoop程序输入目录的标准化，程序往hdfs指定目录输入数据完全没有问题，文件路径和格式均为正确，但是结果文件确实为空。

=============================================================================================================================
一些测试工具
我们常常需要对HDFS或者mapreduce进行一些性能方面的测试，比如测试rpc的性能，测试DFS的IO读写性能，测试DFS的吞吐率性能，测试namenode的benchmark性能，mapreduce的sort性能等等。在hadoop的发行版中，其实已经提供了许多类似的工具，并已经打包成jar，供我们使用。以下是0.20.2中自带的一系列工具列表：

DFSCIOTest Distributed i/o benchmark of libhdfs.
DistributedFSCheck Distributed checkup of the file system consistency.
MRReliabilityTest A program that tests the reliability of the MR framework by injecting faults/failures
TestDFSIO Distributed i/o benchmark.
dfsthroughput measure hdfs throughput
filebench: Benchmark SequenceFile(Input|Output)Format (block,record compressed and uncompressed), Text(Input|Output)Format (compressed and uncompressed)
loadgen Generic map/reduce load generator
mapredtest A map/reduce test check.
minicluster Single process HDFS and MR cluster.
nnbench A benchmark that stresses the namenode.
testbigmapoutput A map/reduce program that works on a very big non-splittable file and does identity map/reduce
testfilesystem A test for FileSystem read/write.
testrpc A test for rpc
testsequencefile A test for flat files of binary key value pairs.
threadedmapbench: A map/reduce benchmark that compares the performance of maps with multiple spills over maps with 1 spill
==================================================================================================================================
hive
hive只是采用了行存储的方式兼存储和读取数据. --效率低
当在hive中读取某一列时，先要取出所有数据然后再取某一行。 --占用较多的磁盘空间

淘宝数据魔方里的缓存穿透、架构、空数据缓存这些和Hadoop一点关系都么有.

关于MR/Hadoop的一些关键点没有讲到，比如：已有的并行计算模型（如：多线程、MPI/OpenCL）存在哪些问题？而MR/Hadoop是如何解决他们的。

Datanode在集群中一般是一个节点一个，负责管理节点上它们附带的存储。在内部，一个文件其实分成一个或多个block，这些block存储在Datanode集合里。
Namenode执行文件系统的namespace操作，例如打开、关闭、重命名文件和目录，同时决定block到具体Datanode节点的映射。
Datanode在Namenode的指挥下进行block的创建、删除和复制。 --切记几个动作
==================================================================================================================================
分布式改造的准入原则
并不是所有的测试执行都可以分布式化，在我们的实际操作过程中，总结出以下几点准入原则，供参考：
1、空白机器可运行。通过一个总控脚本就可以做到依赖环境准备，lib库安装，测试case执行等。
2、测试框架允许case并行。
3、业务层case对外部不存在固定依赖，例如依赖于某个写死的目录。
4、业务层case依赖的server端口，最好是随机的。
5、不允许业务层去操作公共环境。

后续可能的技术方向
1、case按照执行时间切分。按照时间切分来替代按照case数切分。
2、从分布式测试执行过渡到云测试服务。