Hadopp 入门基本概念（一）

最新推荐文章于 2023-05-17 17:27:42 发布

卫星技术

最新推荐文章于 2023-05-17 17:27:42 发布

阅读量2.2k

点赞数

分类专栏： Hadoop 文章标签： Hadoop hadoop概念大数据云计算 hadoop学习

本文链接：https://blog.csdn.net/talioth/article/details/52046512

版权

Hadoop 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

近期开启Hadoop学习旅程，介CSDN博客记录自己的学习过程，希望能和大牛门多多指点。

记录的过程通过提问的方式进行，当然回答的准确性，逻辑性有待讨论。

hadoop是什么？

Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。
Hadoop=HDFS（文件系统，数据存储技术相关）+ Mapreduce（数据处理）
Hadoop的数据来源可以是任何形式，在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能，具有更灵活的处理能力，不管任何数据形式最终会转化为key/value，key/value是基本数据单元。
Hadoop就是一个分布式计算的解决方案。
Hadoop有分布式数据库Hbase。
Hadoop的相关项目也很丰富，包括ZooKeeper，Pig，Chukwa，Hive，Hbase，Mahout，flume等。

 
  hadoop 能做什么？ 
 

 
  hadoop擅长日志分析，facebook就用Hive来进行日志分析，2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析；淘宝搜索中的自定义筛选也使用的Hive；利用Pig还可以做高级的数据处理，包括Twitter、LinkedIn 上用于发现您可能认识的人，可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是！在Yahoo！的40%的Hadoop作业是用pig运行的，包括垃圾邮件的识别和过滤，还有用户特征建模。 
 

 
  hadoop 使用场景？ 
 

 
  大数据量存储：分布式存储
日志处理: Hadoop擅长这个
海量计算: 并行计算
ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库
使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统
机器学习: 比如Apache Mahout项目
搜索引擎:hadoop + lucene实现
数据挖掘：目前比较流行的广告推荐
大量地从文件中顺序读。HDFS对顺序读进行了优化，代价是对于随机的访问负载较高。
数据支持一次写入，多次读取。对于已经形成的数据的更新不支持。
数据不进行本地缓存（文件很大，且顺序读没有局部性）
任何一台服务器都有可能失效，需要通过大量的数据复制使得性能不会受到大的影响。
用户细分特征建模
个性化广告推荐
智能仪器推荐
一切以增加企业的商业价值为核心目的、最终目的。