1.背景
公司希望使用MongoDB作为后端业务数据库,使用Hadoop平台作为数据平台。最开始是先把数据从MongoDB导出来,然后传到HDFS,然后用Hive/MR处理。我感觉这也太麻烦了,现在不可能没有人想到这个问题,于是就搜了一下,结果真找到一个MongoDB Connector for Hadoop
2.MongoDB简介–摘自邹贵金的《mongodb》一书
NoSQL数据库与传统的关系型数据库相比,它具有操作简单、完全免费、源码公开、随时下载等特点,并可以用于各种商业目的。这使NoSQL产品广泛应用于各种大型门户网站和专业网站,大大降低了运营成本。
 2010年,随着互联网Web2.0网站的兴起,NoSQL在国内掀起一阵热潮,其中风头最劲的莫过于MongoDB了。越来越多的业界公司已经将MongoDB投入实际的生产环境,很多创业团队也将MongoDB作为自己的首选数据库,创造出非常之多的移动互联网应用。
 MongoDB的文档模型自由灵活,可以让你在开发过程中畅顺无比。对于大数据量、高并发、弱事务的互联网应用,MongoDB可以应对自如。MongoDB内置的水平扩展机制提供了从百万到十亿级别的数据量处理能力,完全可以满足Web2.0和移动互联网的数据存储需求,其开箱即用的特性也大大降低了中小型网站的运维成本。
MongoDB与Hadoop整合实践——Hive篇
              
                      
                            
                        
                            
                            
                          
                          
                            
                            
                            
本文介绍了如何将MongoDB与Hadoop集成,特别是与Hive的结合使用。作者首先阐述了背景,提到公司希望使用MongoDB作为后端数据库,而Hadoop作为数据平台。接着,文章简单介绍了MongoDB的特点和在业界的应用。然后,提到了Hadoop HA集群和Hive的安装。主要内容包括安装MongoDB Connector for Hadoop,强调版本匹配的重要性,并提供了连接MongoDB的两种Hive使用方式:MongoDB-based和BSON-based。在MongoDB-based方式中,Hive直接处理MongoDB中的实时数据;而在BSON-based方式下,数据需要先dump出来再进行处理。
          
                  
                订阅专栏 解锁全文
                
            
      
          
                
                
                
                
              
                
                
                
                
                
              
                
                
                    
              
            
                  
					852
					
被折叠的  条评论
		 为什么被折叠?
		 
		 
		
    
  
    
  
					
					
					


            