[Hadoop] Hadoop 传递参数

最新推荐文章于 2024-06-26 11:32:56 发布

bbbbbbj

最新推荐文章于 2024-06-26 11:32:56 发布

阅读量1.1k

点赞数

分类专栏： Hadoop 文章标签： hadoop mapreduce 算法文档 api 工作

Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

写MapReduce程序通常要传递各种各样的参数，选择合适的方式来传递参数既能提高工作效率，也可以避免bug的产生。根据参数的大小，可以粗略的分为以下几种。

      最直接的方式就是使用Configuration的各种set方法，对于基本数据类型都有很好的支持，比如传递kmeans聚类算法的中心点个数。

      如何传递一个对象型参数？话说所有的对象都是由基本类型构建的，所以我们可以覆盖这个对象的toString()方法，将它的所有元素表示成字符串，然后使用Configuration.set(name, value)传递这个字符串。然后在Mapper端获得这个字符串，做析构。这种朴素的方法有两个缺点。首先，将对象变成字符串会有精度上的损失，比如 double类型转换成字符串，不仅精度有损失，而且8字节的空间用字符串来表示可能会变成几十字节。其次，由于字符串化和反字符串化分散在不同的地方，很容易产生bug，如果修改了这个对象的结构，这种bug产生的几率非常大。既然有这种需求存在，难道hadoop没有提供nice点的方法吗？有，不过在api文档中没有直接说明。

     正确的方法是，让这个对象实现Writable接口，使它具有序列化的能力，然后使用 org.apache.hadoop.io.DefaultStringifier的store(conf,  obj, keyname)和load(conf, keyname, itemclass)静态方法设置和获取这个对象。他的主要思想就是将这个对象序列化成一个字节数组后，用Base64编码成一个字符串，然后传递给 conf, 解析的时候与之类似。

     如何传递更大的参数，比如分词用的语料库等等？可以使用hadoop的缓存文件DistributedCache。

bbbbbbj

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[Hadoop] Hadoop 传递参数

写MapReduce程序通常要传递各种各样的参数，选择合适的方式来传递参数既能提高工作效率，也可以避免bug的产生。根据参数的大小，可以粗略的分为以下几种。最直接的方式就是使用Configuration的各种set方法，对于基本数据类型都有很好的支持，比如传递kmeans聚类算法的中心点个数。如何传递一个对象型参数？话说所有的对象都是由基本类型构建的，所以我
复制链接

扫一扫