大数据基础
文章平均质量分 94
南风待你
天下事有难易乎?
为之则难者亦易矣,
不为则易者亦难矣。(有问题的地方,大家提出来一起探讨)
展开
-
mapreduce参考资料
mapreduce简介:http://www.aboutyun.com/thread-5541-1-1.htmlmapreduce资料:http://wiki.baidu.com/pages/viewpage.action?pageId=67279703 mapreduce作业流程:https://blog.csdn.net/py_123456/article/details/796953...原创 2018-07-25 11:14:45 · 286 阅读 · 0 评论 -
YARN
参考:https://blog.csdn.net/bingduanlbd/article/details/51880019 http://wiki.baidu.com/pages/viewpage.action?pageId=470563786 http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop...原创 2018-07-27 15:21:51 · 319 阅读 · 0 评论 -
Zookeeper
参考链接:https://zookeeper.apache.org/doc/current/zookeeperOver.html http://www.cnblogs.com/sunddenly/p/4033574.html https://zhuanlan.zhihu.com/p/32238459什...原创 2018-07-20 17:00:47 · 304 阅读 · 0 评论 -
Ambari的简单介绍
参考文档:https://www.ibm.com/developerworks/cn/opensource/os-cn-bigdata-ambari/index.html#icomments Ambari 的基本架构Ambari Server 会读取 Stack 和 Service 的配置文件。当用 Ambari 创建集群的时候,Ambari Server 传送 Stack 和 Ser...原创 2018-07-25 20:24:33 · 591 阅读 · 0 评论 -
sqoop的简单介绍
Sqoop是一种用于在Hadoop和关系数据库或大型机之间传输数据的工具。您可以使用Sqoop将数据从关系数据库管理系统(RDBMS)(如MySQL或Oracle或大型机)导入Hadoop分布式文件系统(HDFS),转换Hadoop MapReduce中的数据,然后将数据导出回RDBMS 。 ...原创 2018-07-25 19:47:59 · 776 阅读 · 0 评论 -
Spark简单介绍笔记
参考资料:http://dockone.io/article/1723 https://blog.csdn.net/pangjiuzala/article/details/50838591 http://wiki.baidu.com/pages/viewpage.action?pageId=488923228 ...原创 2018-07-25 16:24:19 · 267 阅读 · 0 评论 -
Hadoop------HDFS
首先让我们来重温一下 hadoop 的四大组件:HDFS:分布式存储系统MapReduce:分布式计算系统YARN: hadoop 的资源调度系统Common: 以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等 概述:HDFS即Hadoop Distributed File System分布式文件系统,它的设计目标是把超大数据集存储到分布在网络中的多台普通商用计算机...转载 2018-07-19 17:20:43 · 305 阅读 · 0 评论 -
kafka简单介绍
参考资料:https://www.ibm.com/developerworks/cn/opensource/os-cn-kafka/index.html https://www.jianshu.com/p/b8cea98c17b3 http://www.cnblogs.com/seaspring/p/6138080.htm...原创 2018-07-24 16:29:41 · 377 阅读 · 0 评论 -
Ambari Metrics简单介绍
参考资料:https://www.ibm.com/developerworks/cn/opensource/os-cn-ambari-metrics/index.html http://wiki.baidu.com/pages/viewpage.action?pageId=504573271mbari Metrics System 简称为 AMS,它主要为...转载 2018-07-24 14:37:22 · 1143 阅读 · 0 评论 -
HBase简单介绍
HBase参考资料:https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-bigdata-hbase/index.htmlHbase在Hadoop中的位置:https://www.zhihu.com/question/27974418 HBase 在大数据生态圈中的位置提到大数据的存储,大多数人首先联想到的是 ...原创 2018-07-24 10:48:52 · 456 阅读 · 0 评论 -
大数据技术生态简单介绍
作者:Xiaoyu Ma链接:https://www.zhihu.com/question/27974418/answer/38965760来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有...转载 2018-07-24 10:35:20 · 524 阅读 · 0 评论 -
hive简单介绍
优质资源:http://wiki.baidu.com/pages/viewpage.action?pageId=69100592 https://cwiki.apache.org/confluence/display/Hive/Home http://wiki.baidu.com/pages/viewpage.action...转载 2018-07-25 11:14:27 · 573 阅读 · 0 评论 -
Hbase和Hive的区别,Hbase与传统数据库的区别
HBase 于 Hive 的区别,我们简单的梳理一下 Hive 和 HBase 的应用场景:Hive 适合用来对一段时间内的数据进行分析查询,例如,用来计算趋势或者网站的日志。Hive 不应该用来进行实时的查询(Hive 的设计目的,也不是支持实时的查询)。因为它需要很长时间才可以返回结果;HBase 则非常适合用来进行大数据的实时查询,例如 Facebook 用 HBase 进行消息和实时的...原创 2018-07-27 20:17:25 · 4849 阅读 · 0 评论