MongoDB之Hadoop驱动介绍
------------------------1. 一些概念
Hadoop是一套Apache开源的分布式计算框架,其中包括了分布式文件系统DFS与分布式计算模型MapReduce,而MongoDB是一个面向文档的分布式数据库,它是NoSql的一种,而这里所要介绍的就是一个MongoDB的Hadoop驱动,这里就是把MongoDB作为MapReduce的输入源,充分利用MapReduce的优势来对MongoDB的数据进行处理与计算。2. MongoDB的Hadoop驱动
目前这个版本的Hadoop驱动还是测试版本,还不能应用到实际的生产环境中去。你可以从下面网址https://github.com/mongodb/mongo-hadoop下载到最新的驱动包,下面是它的一些依赖说明:
- 目前推荐用最新的Hadoop 0.20.203版本,或者是用Cloudera CHD3还做
- MongoDB的版本最好是用1.8+
- 还有是MongoDB的java驱动必须是2.5.3+
它的一些特点:
- 提供了一个Hadoop的Input和Output适配层,读于对数据的读入与写出
- 提供了大部分参数的可配置化,这些参数都可有XML配置文件来进行配置,你可以在配置文件中定义要查询的字段,查询条件,排序策略等