hadoop是什么?hdoop能作什么?

什么是Hadoop?

Hadoop是一个基于Java的开源框架,Apache基金会开发,可编写和运行分布式应用处理大规模数据,专为分布式计算环境下的超大数据量并行处理而设计。Hadoop=HDFSHadoop

DistributedFile System文件系统,数据存储技术相关)+ Mapreduce(数据处理);Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有

更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/valuekey/value是基本数据单元。用函数式变成Mapreduce代替SQLSQL是查询语句,而Mapreduce

是使用脚本和代码,而对于适用于关系型数据库,习惯SQLHadoop有开源工具hive代替。

分布式计算是一个宽泛并且不断变化的领域,但Hadoop与众不同之处在于以下几点。
方便——Hadoop运行在由一般商用机器构成的大型集群上,或者如亚马逊弹性计算云(EC2)等云计算服务之上。
健壮——Hadoop致力于在一般商用硬件上运行,其架构假设硬件会频繁地出现失效。它可以从容地处理大多数此类故障。
可扩展——Hadoop通过增加集群节点,可以线性地扩展以处理更大的数据集。
简单——Hadoop允许用户快速编写出高效的并行代码。

 

Hadoop能实作什么,实现什么,帮我们公司干什么?

常见应用:

搜索计算
用户行为分析
日志处理
用户细分特征建模
个性化广告推荐
智能仪器推荐
市场风险分析
网上零售数据挖掘

实例:

中国移动使用hadoop作为数据挖掘平台
baidu使用Hadoop作为数据分析平台
hadoop擅长日志分析,facebook就用Hive来进行日志分析;
淘宝搜索中的自定义筛选也使用的Hive
利用Pig还可以做高级的数据处理,包括TwitterLinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。在Yahoo!的40%Hadoop作业是用pig

运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。

 

 

Hadoop12(含搜索、用户行为分析)个典型应用领域

   谈到Hadoop应用,如果仅将目光集中在为搜索引擎提供动力或者为广告服提供用户行为分析的平台上,那么显然有所局限,本文总结搜索以及广告分析以外出在线旅游、移动

数据、电子商务、能源发现、能源节省、基础设施管理、图像处理、欺诈检测、IT安全和医疗保健这十个领域中的使用。


1. 在线旅游(Onlinetravel)。Dunn表示,目前ClouderaHadoop架构正在为80%左右的全球在线旅游预定服务。尽管其并没有提及这些客户的名字,但是去年的时候我曾对

应用了Hadoop的一家企业OrbitzWorldwide做了采访。Orbitz CEOBarney Harford当时表示,受益于Hadoop架构,他们极为轻松地实现了诸多的数据分析工作,并在其中得

“MAC用户比Windows用户愿意支付20美元的成本来预订酒店,这样的影响范围很广的调查结论。当然,在他看来,Hadoop本身并不能带来如此的神奇效应,但是其可以帮助发

现以前从来没有发现的数据点,进而使分析和挖掘成为了可能。

2. 移动数据(Mobiledata)。这是Dunn的另一项匿名统计,Cloudera“70%美国智能手机提供服务。我认为他谈论的是通过无线方式存储和处理移动数据,以及有关

市场份额的数学可以帮助他们锁定客户。

3. 电子商务(E-commerce)。Dunn所谈的Cloudera第三个市场是美国超过10,000,000家网上商店。Dunn说一家大型零售商(我认为说的是eBay,作为一个主要的Hadoop用户并

且成功经营着大型零售卖场来帮助数百万商人销售)在使用了Hadoop后仅90天内就增加了3%的净利润。

4. 能源发现(Energydiscovery)。在Cloudera的圆桌会议上,来自行业的一位代表 Chevron 解释了为什么他们选择了Hadoop:我们采用Hadoop来对数据进行排序和整理,

而这些数据全部来自从海洋深处地震时产生的数据,而其背后有可能意味着石油储量。

5. 能源节省(Energysavings)。与 Chevron目标截然相反,Opower使用Hadoop来提升电力服务,尽量为用户节省在资源方面的投入。一个代表小组注意到,某些特定功能,

如精确并长期的费用预测如果没有Hadoop几乎很难完成。据了解,Opower现在管理着30TB的信息,其中包括来自5000万用户(横跨60个公共事业部)能源数据,气象与人口方面的

公共及私人数据,历史信息,地理数据及其他。这些都是通过超过20MySQL数据库和一个Hadoop集群来存储和处理的。

6. 基础设施管理(Infrastructuremanagement)。这是一个比较常见的应用方向,实际上,随着更多的公司(Esty,我最近采访过)从服务器、交换机及其他IT设备商收集

并分析数据,Hadoop更有市场。在Cloudera发布会中,NetApp代表指出他们公司收集设备日志(现在已经超过1PB的容量了),并将它们存储在Hadoop中。事实上,Esty是专门从事

国产与复古商品的电子商务网站,现在已经超过110万的用户,250万的独立访问量和11亿的页面浏览量。举个例子,通过Splunk管理和分析的集群数据已经到了每天1TB的量级。

Esty每晚都要在以 Elastic MapReduce Hadoop service为基础的亚马逊云计算平台上运行数十种Hadoop工作流程。根据一些详细技术报告,其运行差不多5000 Hadoop job是在

20115月份来分析来自内部运行数据和外部活动数据如用户行为变化。

7. 图像处理(Imageprocessing)。一家创业型企业SkyboxImaging,利用Hadoop来存储和处理高来自卫星捕捉的高分辨率图像,并尝试将这些信息及图像与地理格局的变化

相对应。

8. 欺诈检测(Frauddetection)。这已经是老生常谈了,在金融服务机构和情报机构中,欺诈检测一直都是关注的重点。一家企业,ZionsBancorporation向我讲述了他们

是如何利用Hadoop来存储所有数据,并对客户交易和现货异常进行判断,对可能存在欺诈行为提前预警的。

9. IT安全(ITsecurity)。如基础设施管理一样,企业通过使用Hadoop来处理机器产生的数据,以识别恶意软件和网络攻击模式。去年,ipTrus通过使用Hadoop来指定IP

址的名誉得分(在0-1之间的得分,O等于没有防线或未知的风险),从而使其他安全产品可以判断是否接受来自这些来源的通信,IBMHP都使用ipTrust的安全产品。

10. 医疗保健(Healthcare)。我认为有很多方法可使更多的医疗保健医生从Hadoop中受益。但是最常见的仍然在搜索领域。去年,我介绍的Apixio,利用Hadoop平台开发了

语义分析服务,可以对病人的健康提供医生、护士、及其他相关人士的回答。Apixio试图通过对医疗记录进行先进的技术分析,与一个简单的基于云计算的搜索引擎来帮助医生迅

速了解病人相关病史,挽救生命。

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值