hadoop分布式计算，集群-CSDN博客

本文链接：https://blog.csdn.net/liNewman/article/details/86576802

hadoop分布式计算，集群

https://zhidao.baidu.com/question/808177111338012932.html

主要是分布式文件系统，简单的说，如果你服务器要做一个群集，可能需要相同配置的电脑，要NAS， 但HADOOP不需要，在不同的服务器上安装，就可以实现群集了。

古代，人们用牛来拉重物，当一头牛拉不动―根圆木时，他们不曾想过培育更大更壮的牛。同样，我们也不需要尝试开发超级计算机，而应试着结合使用更多计算机系统。hadoop就是一种能实现多个计算机一起运算数据的一种软件，一个平台。



Hadoop=HDFS+Yarn+MapReduce+Hbase+Hive+Pig+…

 

1.HDFS:分布式文件系统，隐藏集群细节，可以看做一块儿超大硬盘

         主：namenode,secondarynamenode

         从：datanode

 

2.Yarn:分布式资源管理系统，用于同一管理集群中的资源（内存等）

         主：ResourceManager

         从：NodeManager

 

3.MapReduce:Hadoop的编程框架，用map和reduce方式实现分布式程序设计，类似于Spring。

 

4.Pig:基于hadoop的一门数据处理语言，类似于python等编程语言

 

5.Zookeeper：分布式协调服务，用于维护集群配置的一致性、任务提交的事物性、集群中服务的地址管理、集群管理等

         主：QuorumPeerMain

         从：QuorumPeerMain

 

6.Hbase:Hadoop下的分布式数据库，类似于NoSQL

         主：HRegionserver,HMaster,HPeerMain(在使用zookeeper作为协调时没有此进程)



7.Hive:分布式数据仓库，让开发人员可以像使用SQL一样使用MR。



8.Scoop:用于将传统数据库中数据导入到hbase中一个导入工具



9.Spark:基于内存的分布式处理框架

         主：Mater

         从：worker

PHP+Hadoop实现数据统计分析http://blog.csdn.net/hao508506/article/details/63002073

ubuntu使用PHP访问Hadoop，利用WebHDFS：http://blog.csdn.net/bupt073114/article/details/51970436

用Hadoop，还是不用Hadoop？：https://www.aliyun.com/zixun/content/1_1_469164.html

hadoop的安装，主从设置及结合php的应用：http://blog.csdn.net/woailuoyaya/article/details/8508276

hadoop是什么？

(1)Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。用函数式变成Mapreduce代替SQL，SQL是查询语句，而Mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯SQL的Hadoop有开源工具hive代替。

(2)Hadoop就是.

hadoop能做什么？

 hadoop擅长日志分析，facebook就用Hive来进行日志分析，2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析；淘宝搜索中    的 自定义筛选也使用的Hive；利用Pig还可以做高级的数据处理，包括Twitter、LinkedIn 上用于发现您可能认识的人，可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是！在Yahoo！的40%的Hadoop作业是用pig运行的，包括垃圾邮件的识别和过滤，还有用户特征建模。（2012年8月25新更新，天猫的推荐系统是hive，少量尝试mahout！）

这也就是所谓的 大数据 云计算了.如果还是不懂的话再举个简单的例子

比如  1亿个  1 相加 得出计算结果, 我们很轻易知道结果是 1亿.但是计算机不知道.那么单台计算机处理的方式做一个一亿次的循环每次结果+1

那么分布式的处理方式则变成 我用 1万台 计算机,每个计算机只需要计算 1万个 1 相加 然后再有一台计算机把 1万台计算机得到的结果再相加

从而得到最后的结果.

理论上讲, 计算速度就提高了 1万倍. 当然上面可能是一个不恰当的例子.但所谓分布式,大数据,云计算 大抵也就是这么回事了.

hadoop能为我司做什么？

零数据基础，零数据平台，一切起点都是0。

日志处理

用户细分特征建模

个性化广告推荐

智能仪器推荐

   一切以增加企业的商业价值为核心目的、最终目的

怎么用hadoop

hadoop的应用的在我司还属于研发型项目，拟用日志的分析来走通一次流程，因为此阶段目前来说还不需要数据挖掘的专业人员，在数据分析阶段即可，而系统有数据库工程师，Mapreduce有java开发工程师，而分析由我本人介入，而可视化暂时可由前端JS实现，本来我的调研方案，针对大数据的解决方案是hadoop+R的，但是对于R我们是完全不懂，在公司还没有大量投入人员的情况下，只有日志分析目前看来是最容易出成果的，也是可以通过较少人员能出一定成果的，所以选取了这个方向作为试点。

Hadoop集群配置心得（低配置集群+自动同步配置）：https://www.cnblogs.com/delly/p/3849736.html

posted @ 2018-03-01 10:43 Newman·Li 阅读( ...) 评论( ...) 编辑收藏