![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
jiangjian_isswhu
这个作者很懒,什么都没留下…
展开
-
了解apache Hadoop--Hadoop最全生态系统介绍
下面详细介绍生态系统的组成。1. HDFSHDFS(Hadoop Distributed File System,Hadoop分布式文件系统)是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFS简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。2. M转载 2016-03-01 20:16:01 · 481 阅读 · 0 评论 -
hadoop使用场景
大数据量存储:分布式存储日志处理: Hadoop擅长这个海量计算: 并行计算ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache Mahout项目搜索引擎:hadoop + lucene实现数据挖掘:目前比较流行的广告推荐大量地从文件中顺序转载 2016-03-29 13:55:44 · 189 阅读 · 0 评论 -
Hive整合HBase,操作HBase表
转自 lxw的大数据田地 » [一起学Hive]之十三-Hive整合HBase,操作HBase表十二、Hive整合HBase,操作HBase表HBase是被设计用来做k-v查询的,但有时候,也会遇到基于HBase表的复杂统计,写MR很不方便。Hive考虑到了这点,提供了操作HBase表的接口。关于Hive操作HBase表的原理,请参考我之前的博文:转载 2016-04-05 15:33:46 · 1223 阅读 · 0 评论 -
盘点SQL on Hadoop中用到的主要技术
自打Hive出现之后,经过几年的发展,SQL on Hadoop相关的系统已经百花齐放,速度越来越快,功能也越来越齐全。本文并不是要去比较所谓“交互式查询哪家强”,而是试图梳理出一个统一的视角,来看看各家系统有哪些技术上相通之处。考虑到系统使用的广泛程度与成熟度,在具体举例时一般会拿Hive和Impala为例,当然在调研的过程中也会涉及到一些其他系统,如Spark SQL,Presto,TAJ转载 2016-04-13 11:20:29 · 297 阅读 · 0 评论 -
大数据学习平台
http://www.aboutyun.com/forum-117-1.html里面资料众多,值得阅读!原创 2016-03-28 21:48:53 · 471 阅读 · 0 评论