Hadoop
文章平均质量分 61
K.Sun
这个作者很懒,什么都没留下…
展开
-
《Hadoop生态》——第一章 核心技术
第一章 核心技术在2002年,那时候World Wide Web相对还是比较新颖的,而且在用“谷歌”查询东西以前,Doug Cutting和Mike Cafarella想通过爬取网站,并为内容建立索引来建立一个Internet搜索引擎。为了这件事情他们启动了一个叫Nutch的工程,但是这个工程需要一个可伸缩的方法来存储内容的索引。在2002年组织存储数据的标准做法是用关系型数据库管理系统(RDBMS翻译 2017-07-06 14:32:07 · 496 阅读 · 0 评论 -
《Hadoop生态》——第二章 数据库与数据管理——Hive
Hive 许可证: Apache License, Version 2.0 活跃度: 高 目的: 数据交互 官方地址: http://hive.apache.org Hadoop集成: 完全集成首先所有对在Hadoop集群上数据的访问都是通过用Java写的MapReduce任务完成的。当所有的Hadoop用户有了一个比较稳定的Java牛人团队的时候,这个在Hadoop发展初翻译 2017-07-09 13:21:17 · 466 阅读 · 0 评论 -
《Hadoop生态》——第二章 数据库与数据管理——MongoDB
MongoDB![这里写图片描述](http://img.blog.csdn.net/20170708181117310?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvc2luYXRfMzYyNDYzNzE=/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEas翻译 2017-07-08 22:36:43 · 354 阅读 · 0 评论 -
《Hadoop生态》——第二章 数据库与数据管理——Solr
Solr 许可证: Apache License, Version 2.0 活跃度: 高 目的: 文档仓库 官方地址: https://lucene.apache.org/solr Hadoop集成: API兼容有时候你只是想从一大堆文档中做查询。但是不是所有的任务都得对PB级的数据做大型复杂的分析。对于大多数情况,你可能觉得对于一个简单的Unix grep命令或者Wi翻译 2017-07-08 17:38:22 · 358 阅读 · 0 评论 -
《Hadoop生态》——第二章 数据库与数据管理——Blur
Blur 许可证: Apache License, Version 2.0 活跃度: 中 目的: 文档仓库 官方地址: https://incubator.apache.org/blur Hadoop集成: 完全集成假设你在Hadoop已经保存了大量的数据。你已经用Flume对数据做了整理并放在HDFS中,MapReduce的任务就是将数据进行转换并建立key-valu翻译 2017-07-08 16:25:50 · 382 阅读 · 0 评论 -
《Hadoop生态》——第二章 数据库与数据管理——Cassandra
数据库与数据管理如果你计划用Hadoop,那么你要去管理大量的数据的可能性还是很大的,然后要添加到MapReduce任务中,你可能需要某种数据库。自从Google的BigTable出现以来,Hadoop就已经对数据的管理产生了浓厚的兴趣。虽然已经有一些关系型数据库或者与HDFS数据的SQL接口,比如Hive,Hadoop的许多数据管理都是用non-SQL的技术来存储和访问数据。NoSQL的文档列表超翻译 2017-07-06 14:48:30 · 867 阅读 · 0 评论 -
《Hadoop生态》——第二章 数据库与数据管理——Memcached
Memcached 许可证: Revised BSD License 活跃度: 中 目的: 内存缓存 官方地址: http://memcached.org Hadoop集成: 无集成你完全有可能遇到这种情景,你需要在很短的时间内访问大量的数据。例如,假设你想要给你的客户发送一封邮件,并期望他们能够了解你在你产品中添加的新特征,但是你也需要是一些你这个月已经联系过但是不包翻译 2017-07-06 18:17:32 · 269 阅读 · 0 评论 -
《Hadoop生态》——第二章 数据库与数据管理——Accumulo
Accumulo 许可证: Apache License, Version 2.0 活跃度: 高 目的: 带有单元级安全的Name-value数据库 官方地址: https://hbase.apache.org Hadoop集成: 完全集成你有这么一个应用,它可以很好地利用列/name-value存储,就像HBase一样,但是你又有了安全问题;你必须得严格控制那个用户可翻译 2017-07-06 17:14:27 · 807 阅读 · 0 评论 -
《Hadoop生态》——第二章 数据库与数据管理——HBase
HBase 许可证: Apache License, Version 2.0 活跃度: 高 目的: 可随机访问的NoSQL数据库 官方地址: https://hbase.apache.org Hadoop集成: 完全集成很多情况下你拥有的数据可能是稀疏的。也就是说数据由许多属性,但是每个观察则只有这些属性的少数一部分。例如,你可能想在一个帮助服务台的应用中要一个有各种标翻译 2017-07-06 16:13:14 · 360 阅读 · 0 评论 -
《Hadoop生态》——第二章 数据库与数据管理——Spark SQL (formerly Shark)
Spark SQL 许可证: Apache License, Version 2.0 活跃度: 高 目的: SQL访问Hadoop数据 官方地址: http://spark.apache.org/sql/ Hadoop集成: API兼容如果你需要SQL来访问数据而且Hive又表现得不是那么好,而且你也愿意用Spark环境,那么你就应该考虑下 Spark SQL。Spark中翻译 2017-07-09 14:31:10 · 370 阅读 · 0 评论