Hadoop中国2009云计算大会-1

最新推荐文章于 2023-05-21 21:14:38 发布

nuoline

最新推荐文章于 2023-05-21 21:14:38 发布

阅读量589

点赞数

分类专栏：云计算

本文链接：https://blog.csdn.net/nuoline/article/details/8610569

版权

云计算专栏收录该内容

20 篇文章 0 订阅

订阅专栏

时间：2009-11-15 8:0:0
地点：中国科学院计算技术研究所
主持人：查礼
嘉宾：
徐志伟（中国科学院计算技术研究所总工程师，研究员）
Eric Baldeschwieler （VP of Engineering, Hadoop Development）
黄晓庆（中国移动通信研究院院长）
邵铮（Facebook inc.资深工程师）
Christophe Bisciglia （Cloudera公司副总裁，联合创始人）
邵辉（百度系统部总监框计算推进小组组长）
郑皓（Technical Director，雅虎北京研发中心）
查礼（中国科学院计算技术研究所网络重点实验室，副研究员）
[主持人查礼]:大家上午好！首先介绍一下，今天到场的嘉宾有：中科院计算所总工徐志伟先生，雅虎软件开发副总裁Eric Baldeschwieler，中国移动通信研究院黄晓庆院长，百度系统部总监邵辉先生，雅虎北京研发总经理张晨先生，Facebook资深工程师邵铮先生。Hadoop此前举行了两届。本次大会的主题思想是挑战协作创新社区。其意义在于探讨Hadoop发展和应用中面临挑战的问题，如我们所知，近几年来Hadoop吸引了学术界和产业界的注意，特别是很多互联网公司在使用Hadoop进行生产和运行，比如说雅虎和facebook，我个人认为，这都得益于两点，第一，Hadoop是面向应用问题，第二，Hadoop是开放源码的软件。Hadoop是针对解决处理海量数据而设计的，这个问题是众多互联网公司需要面对的，开放源码不仅提供了工具，也提供了交流和合作的舞台，希望通过广大Hadoop爱好者的努力，使Hadoop越来越强大，越来越好用，甚至催生Hadoop新的互联网的应用。 9:16

[徐志伟]:非常欢迎海内外的朋友们来参加这次会议。我们的所长李国杰院士今天突然到去出差，所以他让我来转达他对我们的祝贺，而且我们计算所看见这个Hadoop club，原来是一个草根运动，现在得到企业界的一致支持，尤其是年轻的同学们的参与，这是我们非常高兴看见的。计算所也将一如既往继续支持这种社区性的活动。 9:21

[徐志伟]:今天我想跟大家谈三个问题，第一，我们可能十几年以前就在做网络计算的研究，以前的名词是叫别的，不像今天叫的很热的“云计算”，这是计算所长期的战略，我想跟大家讲讲计算所为什么要做这样的事情，另外它的关注重点是什么，还有我跟大家举几个例子。 9:22

[徐志伟]:我们计算所做事情主要有两个因素，一是要有国家战略需求，第二跟我们的学科——计算机科学技术的学科发展密切相关。我先给大家讲讲市场的需求，有一个怪现象，不知道大家注意没有？从长远的角度看，我们全球的计算机市场现在增速开始放缓了，最近八年，已经到单位数了，再往下计算机就不增了，我们就变成夕阳产业了，有没有这种可能？这会影响计算机的教育，我们还招这么多学生来干什么？他们毕业以后找工作会很麻烦，而且我们的研究是不是也有新的挑战？这是一个非常值得我们深思的问题。我们中国比国外好，就是我们现在还是双位数增长，但是更重要的一个问题，就是我们能不能够把这个趋势逆转，有没有机会逆转它？不要觉得我们已经到顶了，我们能不能够想到，现在我们才刚刚开始，如果刚刚开始，以后的东西是什么，肯定不是我们现在已经看见的东西，现在的东西可能就10%，还有大量的东西发挥出来，而这些发展的东西，很多会由我们今天在座的人发明出来。 9:23

[徐志伟]:第二，看我们中国的市场，科学院经过两年的战略研究，我们有一些结论，第一个结论是，我们的市场可能至少会再增长10倍，有可能会增长20倍。这有一个根本的原因。从我们学科来讲，就是网络计算出现了。网络计算会成为我们计算机的一个缺省的模式，而且从我们学科上讲，我们要从以前人机共生，传统的东西，要扩展为三元世界，就是人类社会和自然物理世界三个东西会连在一起的，连在一起以后有很多非常多的新需求，我们还没有挖掘的，比如说最近很多兴起的社会网络计算，社会计算，就是人类社会和我们“cyberspace”结合以后的新产物，我们看见的东西刚刚开始，包括我们做得很好的厂商，在交流的时候，他们都告诉我们，他们自己觉得，其实还有非常多的挑战和非常多的机遇现在还没有来得及挖掘出来。这对我们中国特别重要，因为我们中国和现在全球其他地方不一样的是，中国现在的IT占国际IT市场的比例是非常小，尽管经过这么多年的努力，我们千万别忘了我们是一个发展中国家，可能在20年之内还是一个发展中国家，我们现在国内有些错误的判断，那个数据是完全错误的，他们认为好像中国快跟美国差不多了，其实根据中国科学院的计算，要到2050年，我们人均IT花费才有可能达到美国今天的水平，所以即使到2050年，我们的信息产业的叫IT“wirefair”这个来算的话，我们还是要跟美国落后50年的，按人均来算。所以我们现在还有非常非常多的机会，这点千万别忘记，因此我们就需要研究这里面到底有哪些东西。 9:27

[徐志伟]:但是我们有一个优点，就是中国有一个特点，我们以后肯定会成为全球信息市场用户最多的，而且有可能经过今后几十年的努力，中国可能会成为全球最大的信息市场。这个市场的推动力有很多可能就是我们在座的人来做的。像我们有好多互联网公司，跟传统的IT公司有一个不同的特点，开始发起的时候就几个人，即使到现在，已经在支持几亿用户的时候，实际上技术人员就几百人。这是互联网给我们带来的一个新的机遇，网络计算带来的新的机遇，完全和以前的生态环境是不一样的，我们怎么利用这个东西，也是我们的一个挑战。 9:28

[徐志伟]:我这儿列了一些数据，现在有一个好处，软件我们国家开始增长了，我们的服务业占的比例也增长了，这些都是我们的结构在开始转型。 9:28

[徐志伟]:下一个我跟大家讲一讲我们计算所的学科发展方面，是我们很多研究生同学特别重视的。我们都在讲分布式计算，网络计算，什么叫网络计算？这些事情不搞清楚，有好多时候大家觉得很奇怪，经常大家就问，百度和Google这样的公司，明明是分布在全国，好多地方都有他们的服务器在跑的，为什么要说他是集中式系统？其实我们讲讲集中和控制就清楚了，什么叫分布式系统，什么叫分散系统，像Web这样的东西和语音集中式的系统有什么不同，科学院的研究，我们的IT好像有三国定律，分久必合，合久必分，大概的周期是15年，也可能长一些。我们语音计算，从集中往下一次分中间的一个阶段，现在还没有完全实现到真正的分，语音计算大部分还是集中提供的，但是有一个原来的服务器可能是不一样的，这里有一些规律性的东西，现在有些人来说“computing”实际上是软件大型机，但是有一个历史的必然性，从这个产业来看。 9:31

[徐志伟]:网络计算前几年炒得比较热的词叫网格计算，网络速度上去以后，很多资源会分到别的地方，科学界叫网格，我们企业叫cloud，我们计算所做的第一方面是网格方面，我列了一下现状，现状主要是两块，在科学界建了很多基础设施，大家可以看看，其中国际上最主要的几个网格基础设施，中国有一个国家网格，上面有各种领域的科学的应用。但是关键问题是，现在我们到了云计算了，云计算正在发展，发展趋势会是什么呢？现在大家都不知道，我们认为，以后很可能，尤其对中国来讲，一个迫切的需求就是怎么为老百姓服务，为我们以后可能会有上十亿的IT用户服务，我们起了个名字叫普惠计算，我们已经开始看到一些基础应用，但是这方面的机会还是非常多的。 9:34

[徐志伟]:我们ICT关注的重点是什么呢？第一、我们要为企业和社会提供思想，提供科学技术方面的研究，还有当然要提供人才。比如说在思想方面，我们最近的一个成果就是刚刚出版的至2050年信息科技发展路线图，其中为计算，普惠计算，尤其是网络计算我们要构建普惠泛在的信息网络，这个是我们今后几十年的一个重要任务和一个研究机会。另外我们也关注计算平台，比如说像我们出去看那个展览的话，有我们的GOS和我们现在的云计算平台，还有一些基础研究的东西。计算所积极参加开源社区，我们今天参加了Hadoop，还有和欧盟合作的Xtreemos，还有OMII这样的开源社区，我们的学术点重在平台软件方面，而且我们关注的是可扩展性，一致性，容错性，局部性，易用性这方面，我们是从计算的模式，尤其是“状态”，这是一个非常重要的概念，在网络计算中，状态到底怎么定义，哪些地方应该是无状态，和有状态的，还有调度，以及怎么编程这方面，我们关注的跟开源社区有些不一样，我们除了要开发这个代码以外，还要着重分析和综合。比如说我举个例子，现在我们的好多网络计算，都受了“Eric Brooklyn”定理的影响，大家都知道，我们的一致性，分区容错性，和易用性最多得到两个，不能全得到怎么办呢？有好多是不满足我们现在的很多需求的，这里面就有非常多的研究问题。而且我们最近还做了一项分析工作，就是云计算面临的七个挑战，今天时间关系我就不一一说了。 9:37

[徐志伟]:还有一点就是我们怎么提高效率，现在的数据中心已经越来越庞大，而且以后还可能会继续庞大，怎么管理这么多东西，成本怎么降低，效率怎么提高，以及功耗怎么降低，这些都是很大的问题。他的利用率实际是很低的，在全世界都有很多的调查，我们从公开的资料就看得见，很多地方调查服务器的利用率数据中心当中只有10%不到的，我们国内有很多地方只有8%，有些大公司，内部的数据中心和服务器的利用率也很低，到底是怎么回事，大家觉得，第一，你再给他塞点进去算就行了，其实问题是你没有办法塞进去了，他看起来是低，一塞进去以后，你的业务就跑不动了。我们右边有个图，我们研究出来的，如果想把他的负载提高，他的响应时间和成功执行的时间会大幅度降低，根本不能满足用户的需求，并不是说，明明是空闲的，你就塞不上去，这里面有很多很多原因，你怎么应对呢？我们计算所也研究了其中一个，就是怎么能够利用我们网络计算的涌现现象提高这个东西。 9:39

[徐志伟]:这个涌现现象和我们计算机科学领域一个局部性是密切相关的，大家知道，计算机系统里面局部性是一个最要命的概念，非常基本的概念，局部性原理，相当于计算机的牛顿定律一样，如果没有局部性，计算机产业就彻底死掉了。现在在网络计算当中有什么局部性呢？我们能不能利用人机物三元世界的涌现现象，这就是我们研究的，比如说在数据方面，我们在研究，假如有很多很多用户都在访问数据的话，他们都是独立的，有没有局部性呢？而且他的数据源来源好多地方，这是一个典型的数据集成问题，有好多好多都是这样干的，我们科学界有，互联网服务都有这样的问题，我们有一个研究结果，就是发现了确实存在一种新的涌现现象，叫请求局部性，然后我们发明了一种新的技术叫请求窗口，大家可以去看上面我们计算所的文章。而且他的效果确实很好，你不用加任何硬件，就是好好利用新的局部性就可以提升他的吞吐力。 9:40

[徐志伟]:还有一个就是关于数据类的，计算类的也有这个问题，现在我们好多调度，计算调度，能够把效率提升上去，我们也做了这样的分散情况，这个方面在经济学界有很多研究，我们这方面还没有这样的规律，就是分布式调度里面，大家也开始有些工作，但是使用这种非集中的方式还比较少。所以我们最后想到了一定这样的话，就可以利用经济学结合我们计算机的算法科学和博弈论game theory做调度，这样的东西我觉得跟我们以后云计算和网络计算有很大的相关性。最后的效果就是，我们确确实实能够大幅度改善这方面的效率，所以，数据中心效率很低。 9:40

[徐志伟]:刚才是偏基础研究的，我们现在正在想把基础研究的结果怎么能够用上去，还有我们也做了很多软件，比如说我们的一个GOS，一个是system software，这个主要用CNgrid的，还有好多用户不愿意自己建一个网格，他想我能不能做一个Gateway用网上的资源，这是很受欢迎的，包括汽车行业的用户也在用这样的东西，这个我们也在全国12个地方部署了，这种HPC的Gateway，还有数据类的，这和Hadoop相关。还有一个我们现在正在发展的就是希望以后我们做一个云计算的平台，能够针对科学计算，大量的数据和各种集成来做的，这个目前我们有些初步的版本了，这个可能是更切合，不光是高性能计算，还有就是数据服务的这样的应用。 9:41

[徐志伟]:我今天的讲话就到这儿为止，我最后想说一句，计算所是国家的研究所，我们的责任是向社会提供思想、技术和人才，我们非常愿意和我们的开源社区，像Hadoop这样的开源社区和很多志愿者一块合作，让我们联合起来，让我们的开源事业越来越进步，能够支撑我们中国的企业，并为世界的开源事业做出贡献，谢谢大家。 9:42

[主持人查礼]:徐老师的报告非常精彩，下面本来应该是由咱们雅虎的Eric来做报告，但是他现在正在接受采访，我介绍一下我们大会组委会的成员，因为他们在这个会议当中做出了很多工作，非常的辛苦。每个人对这个活动做一下展望。 9:42

[王守彦（百度系统部项目经理）]:之前我也参加过两次的Hadoop沙龙，最早只有十几个人，到第二次有五六十人，现在有好几百人，我希望中国的开源社区能够发展得越来越好，越来越壮大，这样的话我们整个技术实力也会得到很大的提升。 9:43

[邵铮（Facebook公司资深工程师）]:大家好，我今天也是第三次来到Hadoop的会场，非常高兴继续介绍相关的一些技术，我特别希望中国的这些研究院以及公司更多的加入开源社区，能够开始对开源社区做出贡献，同时从开源社区当中获得更多的回报，在美国，开源这个方式或者说Open这个方式已经得到了非常非常大的应用，并且对整个行业各个公司都起到非常大的促进作用，在中国我感觉刚刚开始，希望大家一起努力往这个方向一起发展。 9:43

[韩轶平（雅虎北京全球软件研发中心）]:我是今年9月刚刚回到北京加入雅虎北京研发中心的，在此之前我在雅虎美国的总部工作，其实我跟邵铮以前是同事，我们两个也是Hadoop坚定的支持者和推动者，我记得，我第一次参加Hadoop在中国的活动的时候，邵铮第一次参加这个活动之前，我特地到他家去，我们做了差不多两个小时多的彻夜长谈，我们当时惴惴不安，第一次在中国搞这样的活动，多少人会参与，我后来又跟他彻夜长谈，谈了两个小时，看到很多人参加，今天第三次活动的时候，已经到了一个空前的规模，我们真的很高兴，包括我这一次，我加入北京的雅虎研发中心，我一个很大的任务就是说，在中国也好，在雅虎北京也好，推动云计算和Hadoop开发和应用的工作，我希望大家多多的参与进来，参与这个应用，参与开发，参与到开源社区里来，谢谢大家。 9:46

[郑皓]:我很兴奋的看到，第二次是第一次的二倍，第三次是第一次的三倍，这样的发展我们很荣幸请到很多从国外的对Hadoop有直接影响的同事，我希望利用这个机会，能促进国内和国外在云计算开发应用上的交流，我感谢各位今天能够来参加，另外几位同事讲了很多了，我不再多提了，谢谢。 9:47

[Eric Baldeschwieler]:首先谈一下开源社区，Hadoop怎么在雅虎应用，这幅图展现的是Hadoop大家贡献新的功能的变化，这是很令人振奋的，这几年以来增加的贡献的数量是一种几何级数的增长。这个图展现了除Hadoop核心模块以外还包括了一些扩展功能的模块。所以这个图也显示出了不仅Hadoop本身很有价值，在上面建立整个生态系统都是相当有影响力的。这幅图展示的是在Hadoop开源社区邮件列表里面的邮件数量的变化，我们的目的不仅仅给大家一个免费的软件使用，更多的希望整个社区中的开发人员参与到开发和讨论中来。下面这一页展示的是Hadoop在整个业界使用的增长情况，除了Yahoo以外有很多的公司已经开始使用了。这个是从Apache列表中取得的，还有很多公司没有在列表上体现，中国有像百度这样的公司也在使用。 9:48

[Eric Baldeschwieler]:下面我讲一下在雅虎中我们如何使用Hadoop。雅虎是世界上最大的Hadoop用户，也是Hadoop最大贡献者。雅虎是第一个深入使用和开发Hadoop的公司。我很高兴看到Hadoop有今天的成功，我们提供了一个Hadoop分发版本给大家，这个版本和雅虎内部使用的本本完全一致。所以大家使用这个版本的话地我们能在雅虎内部做的一切事情大家也可以做。今天我们在美国、北京和印度、有很大的研发队伍。最后一点我要提的是雅虎并不向外出售Hadoop的服务，我们只是使用Hadoop为公司内部建立服务。我们投资Hadoop的原因，我们认为Hadoop对雅虎的公司发展有支持意义。 9:52

[Eric Baldeschwieler]:下面这幅图展示的是目前雅虎内部最大的Hadoop应用的规模，我们大概现在有超过一万个CPU的单个集群在使用Hadoop，有超过500个研发人员在使用Hadoop。同时雅虎也是Hadoop最大的测试者。在我们向外分发雅虎Hadoop版本之前，我们会进行多层次测试，以确保它的稳定性。我们有一组专门的集群用来测试Hadoop性能和稳定性。我们还有一个2500个结点的集群专门用来验证Hadoop新概念和新的设计。在雅虎内的任何人，可以自由的使用这些机器。我们的大部分机器是用于研究和开发的集群，最后我们还有很大一部分机器是用作生产运行的集群。所以大家所见到的Hadoop分发版本是在各个层次的集群上面已经经过运行和验证以后的。 9:53

[Eric Baldeschwieler]:我们也是Hadoop最大的贡献者。从历史上讲，72%的Hadoop的开发是由雅虎贡献的。我们很高兴的看到，随着时间的推移，雅虎的贡献率正在降低，这也意味着从其他的机构所来的贡献正在逐渐的增大。我们也是Hadoop贡献者的最大雇主。 9:54

[Eric Baldeschwieler]:最后这是Hadoop的发展历程。2004年Hadoop的最初版本开发完成了，2005年的时候，转移到了一个新的架构上，2006年的时候，Apache的Hadoop项目正式建立。我们在不断增加Hadoop的可扩展性，使得他能够用于越来越大的集群上。2006年的时候我们有500个机器在42小时排序了500T的数据。2007年，我们使用900个机器排序同样的数据只用了7.8个小时。在雅虎内部我们当时已经有两个1000台机器的集群。 9:56

[Eric Baldeschwieler]:为什么雅虎要使用Hadoop，雅虎有每月超过5亿的用户来访问，我们有数以万亿计的访问，有大量的数据，雅虎所做的很多事情都依赖于对大含量数据的分析。我们需要对数据及时的进行分析，在数据中挖掘规律和特征。 9:58

[Eric Baldeschwieler]:我们希望能够在雅虎的各个部门之间共享数据和计算架构。随着我们不断的投入，硬件的投入，我们也希望有一个架构能够处理硬件的失效等等问题。这是雅虎的主页，虽然这些主页上的数据并不是直接从Hadoop上取得的，但是这些数据的处理是在Hadoop上完成的，所以你在雅虎主页上面进行搜索或看到的广告，这些服务的后台都是由Hadoop上的应用所完成的。所以雅虎Hadoop集群有很大一部分是做相关的后台处理。现在我们也用Hadoop进行内容处理、做垃圾邮件过滤，内容优化和内容管理等等，而雅虎所提供的内容本身也是存储Hadoop上，所以Hadoop在雅虎是得到了全面的应用。 9:59

[Eric Baldeschwieler]:这里是一些例子，在雅虎所用的一些大规模的Hadoop应用中，Webmap是雅虎最大的Hadoop应用，今天Webmap70个小时处理超过490TB的数据，Webmap的数据在不断增长中，这种增长不仅仅是数据量的增加，也包括算法复杂性的增加，我们惊喜的看到Hadoop能够很好的处理复杂度和数据量的增长。 10:1

[Eric Baldeschwieler]:另一个例子是我们使用Jim Gray排序的benchmark，现在我们也可以在62秒之内排序1TB的数据。我很高兴的来展示随着Hadoop性能不断增长，去年我们也用了16.25个小时排序了一个TB的数据。今天雅虎最大的Hadoop集群拥有6000个结点。有3200个内核，16TB的硬盘。 10:3

[Eric Baldeschwieler]:下面介绍一下Hadoop对于生产运营的影响。很多人认为Hadoop能够减少硬件投资的开销，实际Hadoop还能够提高开发和研究的效率。从这个意义上讲，Hadoop对最后公司运营产生的效益甚至要更大于减少硬件投资。Hadoop能够提高从研发到生产的转移的效率，Hadoop也被证明了容易学习，使得我们不需要有专门的技术人员来连接研究和生产之间的差距。 10:4

[Eric Baldeschwieler]:为什么Hadoop有这样一些生产效率的优势？第一、雅虎所处理的数据规模决定了我们不可能把研发在台式电脑上进行，只能在大规模集群上进行。这就使得集群的管理成为一个很大的挑战，因为科学家可能会要求能不能给我几百个机器，而很多这样的要求相互之间的对于资源的竞争，对于管理是一个很大的挑战。同时科学家也需要花很多时间去寻找到底如何使用这个集群，如何使用计算平台，Hadoop的出现，使这些工作大量减少这方面的开销，使得他们把精力更集中在研究上。以上的这些根本上改变了雅虎的科学家们如何进行研究和开发。我们的研发人员不需要把知识转移给开发人员，他们可以直接开发有生产品质的产品。他们可以使用高级语言直接开发Java、Python、Pig。 10:6

[Eric Baldeschwieler]:下面是一个提高生产效率的例子。我们的搜索助手在用户输入关键词的时候，给出一些建议和提示，搜索助手所使用的数据库是在Hadoop上建立的。这个数据库是从雅虎过去三年的搜索记录中生成的，在使用Hadoop之前，我们的开发团队需要26天的时间去生成这个数据库，在使用Hadoop之后同样的工作只需要20分钟完成。这就意味着我们的研发人员可以在数据上进行实验，然后快速的建立一个新的版本，而不需要等待很长时间。 10:7

[Eric Baldeschwieler]:过去的版本使用C++语言书写，而如今他们用Python书写更加简单。从开发时间来讲，C++的版本需要2—3周时间开发，而现在的版本只需要2—3天完成。 10:9

[Eric Baldeschwieler]:另一个雅虎的生产效率提高的来源是Pig，今天雅虎内部的Hadoop的任务有超过一半是使用Pig书写，我们的研发人员现在只用1/16的开发时间，Pig确实要更多的时间，要两倍的时间去运行这些任务。但是我们的研发人员更关心的是他们研发的效率而不是这个程序运行的效率。因为他们认为，如果他们能够把产品的算法提高20倍的效率，他们就能够使这个最终的运行时间提高10倍。并且最新版本的Pig性能正在不断提高。 10:10

[Eric Baldeschwieler]:下面这个例子展示Pig为什么容易使用，左边是用Java使用的，右边是用Pig使用的，大家可以看到，Pig简单很多。下面我谈一下我们对Hadoop的一些改进。其中一个我们的工作重点是提高Hadoop的向下兼容性，向下兼容性使得新版本的Hadoop的部署变得更容易， 10:12

[Eric Baldeschwieler]:其次我们对文件系统进行改进，增加了同步和增添两项功能。第三、我们改进了任务调度器，Hadoop0.20包括了新的任务调度器。另一点是我们改进了Hadoop的安全性，最后我们提高了Hadoop的性能，提供了新的banchmark和工具改善Hadoop性能。 10:12

[Eric Baldeschwieler]:第二，关于Pig，我们为Pig增加了SQL和metadata。我们增加了列存储和多查询的优化。下一个是关于Oozie，是一个新的工作流和调度的程序。 10:16

[主持人查礼]:感谢Eric。现在是休息时间。 10:38