Hadoop的一些认识--------我与Hadoop不得不说的故事

最新推荐文章于 2025-03-25 13:17:22 发布

道亦无名

最新推荐文章于 2025-03-25 13:17:22 发布

阅读量4.1k

点赞数

分类专栏：工作感悟文章标签： hadoop

本文链接：https://blog.csdn.net/u011046042/article/details/50779048

版权

工作感悟专栏收录该内容

63 篇文章

订阅专栏

1、首先Hadoop是什么?

Hadoop是一个分布式计算的解决方案.。（从一个大的方向来讲）

Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理），Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。用函数式变成Mapreduce代替SQL，SQL是查询语句，而Mapreduce则是使用脚本和代码，而对于适用于关系型数据库，习惯SQL的Hadoop有开源工具hive代替。（从开发人员的角度来看）

2、为什么要了解Hadoop？

从hadoop能做什么，进行阐述。hadoop擅长日志分析，facebook就用Hive来进行日志分析，2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析；淘宝搜索中的自定义筛选也使用的Hive；利用Pig还可以做高级的数据处理，包括Twitter、LinkedIn上用于发现您可能认识的人，可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是！在Yahoo！的40%的Hadoop作业是用pig运行的，包括垃圾邮件的识别和过滤，还有用户特征建模。（2012年8月25新更新，天猫的推荐系统是hive，少量尝试mahout！）

这些大公司都是会利用这些东西如果不知道那么做为一个行业的开发者有点落伍了。