【读书笔记—Hadoop实战】认识hadoop

最新推荐文章于 2024-06-14 13:03:28 发布

maxxbw

最新推荐文章于 2024-06-14 13:03:28 发布

阅读量5.1k

点赞数 1

分类专栏：【Hadoop】文章标签： hadoop mapreduce 读书笔记数据挖掘

本文链接：https://blog.csdn.net/XBWer/article/details/35773919

版权

【Hadoop】专栏收录该内容

4 篇文章 0 订阅

订阅专栏

认识hadoop：

hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据。
hadoop与其他分布式系统的比较

其他分布式系统：把数据移动计算即将发生的地方——》计算——》返回数据——》存储数据

hadoop：把可执行代码移动到数据所在的机器——》计算——》存储数据

注：网络上移动数据的时间>加载代码的时间

hadoop与SQL的比较

SQL：针对结构化数据设计

hadoop：针对非结构化数据(如，文本)

hadoop与SQL的比较
	hadoop	SQL
扩展	需要更多的机器(向外扩展)	要运行一个更大的数据库，就要买一个更大的机器(向上扩展)
数据模式	键/值对	关系表
查询方式	使用脚本和代码	使用查询语句
适用	离线处理和大规模数据分析而设计，适合一次写入，多次读取	几个记录随机读写的在线事务处理模式

认识MapReduce——数据处理模型

优点：容易扩展到多个计算节点上处理数据

理解：Map和Reduce其实是两种操作。

We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That's map. The more people we get, the faster it goes.
我们要数图书馆中的所有书。你数1号书架，我数2号书架。这就是“Map”。我们人越多，数书就更快。
Now we get together and add our individual counts. That's reduce.
现在我们到一起，把所有人的统计数加在一起。这就是“Reduce”。 ——注：这里也并不仅仅是一个人在统计，可以很多人参与

map：输入过滤及转换

reduce：完成聚合

—————————————————————————————————————————————————————————————————————————————

hadoop的构造模块

运行hadoop=在网络分布的不同服务器上运行一组守护进程