jax-rs jax-ws_伦敦JAX之路:与Doug Cutting聊天

jax-rs jax-ws

距离JAX伦敦展览馆Big Data Con展览馆只有几周的路程,自然而然的是,我们对于这些活动中的存储感到非常兴奋。 在我们所谓的“通往JAX之路”系列活动中,赶上事件本身的主题演讲似乎是一个完美的时机,该系列将涵盖Java和大数据领域的一些重要主题。

首先是一个不需要介绍的人,但是我们还是给他一个。 他是一些极具影响力的开源项目的创建者–文本搜索引擎库Apache Lucene,其以Web为基础的后续Apache Nutch和大数据处理平台,在业界掀起了Apache Hadoop的风暴。 目前担任Cloudera的建筑师,我们很高兴与Doug Cutting谈论这些项目以及更多

-

JAX:您是如何进入软件开发的,尤其是开放源代码的?

道格·切特(Doug Cutting):80年代初我在斯坦福大学读书时,我很清楚进入的行业是软件行业。 我开始上一些课,真的很喜欢。 从那时起,我几乎决定要在那方面做些事情。 我在Xerox PARC的一些暑期工作中与同事一起工作,并且非常喜欢与这些人一起工作。 毕业后,我实际上去了爱丁堡18个月,在那里从事语音识别研究项目。 然后,我回到了PARC工作了5年,从事研究工作,然后我被带往了搜索引擎领域。

从一开始,我发现我喜欢编程–但是它也一直是一种职业。 我在大学里积累了一些债务,不想在没有可以偿还的工作的情况下毕业。 在互联网时代,我曾在Xerox,Apple,Excite工作,主要从事非开源软件的开发。 我没有什么东西最终成为开源的,但没有很多。 然后在2000年左右,我写了一个叫做Lucene的程序,我本来以为我可以尝试把它变成某种类型的公司,并意识到我对此无能为力。 因此,我决定尝试将其作为开放源代码使用,并且效果非常好,我非常喜欢,发现它作为一种工作方式非常有价值。

这真有趣。 从2000年左右开始,我几乎专门从事开放源代码软件的工作,这里到处都有一些休息,但大部分都是开放源代码的-但那段时间我每个月也都得到了薪水。 即使有5年的时间,我还是一名独立顾问,帮助人们使用Lucene和其他软件,而不是在任何特定公司工作。

有人认为我是无私的,我不知道是不是真的–我为自己编写的代码完全付了钱。 最近,我规定我希望代码是开源的,但通常会有人想要拥有该软件,并且他们希望将其作为开源,并且他们愿意为编写代码而付费。

JAX:因此,您将自己视为各种问题解决者/疑难解答者,并且为开源项目做出了巨大贡献?

DC:我想我一直是煽动者。 就Lucene而言,我认为Java是一个新平台,我从事搜索引擎已有很长时间了。 我认为在Java中拥有文本搜索引擎将是一件好事。

JAX:以Java为起点的魅力是什么?

DC:相对良好的性能以及高级编程功能和可靠性的结合。 崩溃的相对困难之处在于,系统变得更难,然后结合了在不同平台之间,各种类型的UNIX与Windows和Macs之间相对轻松地移动事物的能力。

我认为那里确实有个不错的地方,对于工程人员来说,一定能够编写出运行良好的程序,但是您不会花很多时间在这些琐碎的移植细节上,而不是在您调试它们会得到在C和C ++程序中发现的所有这些奇怪的内存泄漏和内存错误。

好像是个好地方。 我的意思是,人们批评Lucene和Hadoop项目不在C ++中,这会带来一些性能上的好处,但是如果我们在其中进行操作,我们的速度会慢很多,因为在调试时有些惯性这些语言。

JAX:因此,回顾它坚持使用Java绝对是正确的决定?

DC:对我来说,这是一个很棒的决定。 这是历史,我们无法改变。 有人本可以做得不同并且做得很好,但是我认为这些项目做得很好,并且在这一点上可以说是有效的工具。

JAX:的确是这样。 您曾经谈论过Lucene –我想知道Nutch是如何产生的?

DC:那是我当时从事基于Lucene的咨询,自由职业的日子。 有人走近我说:“要是有一个全文搜索引擎,一个基于爬虫的网络搜索引擎,而且全部是开源的,那真的很整洁。 您对启动这样的项目感兴趣吗?” 所以我想,我当然愿意这样做。 我在Excite工作了数年,研究基于爬虫的搜索引擎,并在封闭源代码上看到了很多工作。

我有些天真,我相信当时我还很天真,几乎所有的软件最终都变成了商品,并且有一个开源实现。 而且我认为网络搜索引擎不应例外。 事实并非如此。 我认为,如今真正的网络搜索引擎已经在Google和Microsoft以及世界上其他一些地方使用-它们不是开源的。 维护一个人所需的工作量通常是这样的–无论如何,它还没有产生真正具有世界一流水平的开源程序,但在当时看来是个好主意。

因此,我投入了自己的精力,得到了一些合作者,我们试图做我们能做的。 我熟悉我们在Excite进行分布式处理的方式,这很粗糙。 只需有一堆机器并手动管理它们上的进程,然后在各个阶段复制文件即可。 从理论上讲,我们拥有可以任意扩展到许多机器的功能。 但是操作很麻烦–那里有很多手动步骤。

那段时间,我看到Google的论文,谈论他们如何做这些事情,以及他们在何处自动化了所有这些手动步骤并建立了框架。 而且,MapReduce直接支持的算法和数据结构几乎相同。

因此,我认为这是一个明显的改进,可以实现自动化并将其添加到Nutch中。 但是当时我们有一个工作系统,在阅读这些论文之前,这是一个开源项目,然后在看到这些工作之后,情况会好得多。



贾克斯(JAX):当您阅读Google论文时,脑袋里有灯泡掉了吗?

DC:非常。 您知道,我们看到了,很显然,这是一种更好的做事方法。 我不知道,我们花了大约六个月的时间才能真正使事情达到可以演示MapReduce运行的地步,并且在拥有MapReduce之前,它的运行状况比爬虫和索引要好得多实施。 那是在2004年左右,当时完成了很多研究。

然后,雅虎! 随之而来的是,他们有了自己的分布式计算框架,并在此框架上构建了Web搜索,并且它已经失去了使用寿命,并且变得越来越薄。 他们也阅读了Google的论文,认为这将是一个很好的方法,并认为我们在Nutch内部构建的实现是最完善的实现,并认为将其作为开放源代码将是一个不错的选择。要走的路。 [他们]希望与Nutch携手合作。

他们出于法律原因不希望在开源搜索项目的环境中进行此操作,而是希望将其拆分为一个单独的分布式计算项目。 因此Hadoop与Nutch的分离是由Yahoo!的使用真正推动的–我认为这是一个很好的选择,而且我认为通用分布式计算平台显然比进行爬网的东西更为通用,它需要完成。 还有雅虎! 提供了这样做的动力,该工作于2006年1月完成。

JAX:您可能会被问到很多–您是否曾想过Hadoop会成为今天的样子? 您见过它变得如此巨大吗?

DC:不,我不是真的–我开创了除网络搜索之外有用的东西,而且[我知道]拥有这种通用的东西会很有用。 在我的整个职业生涯中,我从来都不是关系数据库的忠实拥护者。 我迷上了它们,总是发现它们不足以进行我正在做的文本搜索和Web链接,但不是合适的解决方案。 但是它也从未与企业软件有关。 我一直在网络公司和搜索项目以及苹果公司的台式计算机操作系统上工作。 我真的没有花任何时间在思考。 因此,不,我当时认为这对许多行业没有巨大影响。 所以,我很高兴看到它! [笑]

贾克斯:绝对。 您认为我们已经达到了存储/处理的极限吗? 还是在这一点上我们才真正刮过表面?

DC:我认为我们绝对还处于使用这些东西及其作用的早期阶段。 硬件用于存储和处理数据的负担能力存在长期的指数趋势。 每个行业(许多行业,所有行业)对硬件的消耗都存在着长期的指数趋势,以存储和处理更多数据,并使用它来改善业务。 因此,这两个显然都与彼此有关,我认为它不会很快结束。 它们有可能开始放缓,但仍将继续保持巨大的增长。

而且,我们在Hadoop中看到的数据处理方法实际上是一种更适合跟踪这些趋势的方法。 如果您要存储大量数据,则需要从头开始设计以尽可能线性扩展并使用最经济的硬件。 经典的关系美德并不是那种从团队中设计出来的-它们有些过时了,它们来自不同的时代。

另一个真正令人兴奋的事情是查看Google最近的工作-他们最近发表了Spanner论文 ,谈论了他们的F1系统。 他们比曲线领先了几年,比我们这个世界的其他人都领先。 因此,他们对我们可以去的地方有一个大致的了解,而当他们写这些论文时,他们实际上为我们提供了我们可以去的地方的路线图[笑]。

现在看来,我们可以拥有所有这些东西,我们确实可以拥有可以扩展到非常远,可以扩展到全球范围的事务数据库系统。 您可以在数据中心中使用它们,在表中保留PB级,并且仍然可以响应交互式查询。 因此,我们在开源生态系统中还不是很到位,但是我认为很明显,我们将实现目标。

因此,就功能而言,我们正在努力。 因此,我认为这将导致更多的采用,更多的用例。 因此,您已经拥有了不断发展的现有行业,现有的技术能力以及现有的硬件经济学,并且这些经济学将日趋完善,行业将日趋成熟并意识到他们将如何更多地利用这种技术,并且技术将不断发展。 ,并使他们做得更多。 是的,我不认为这一切都结束了。

JAX:在此阶段,有些企业似乎对采用Hadoop有点犹豫。 是否需要改变思维方式才能被采用? 选择Hadoop发行版之前需要考虑哪些事项?

DC:我认为所有企业本质上都是保守的,这是有充分理由的-当他们采用新技术时,他们必须对它进行几年的支持,因此他们需要可以支持的东西。 他们不想只经营“下一件大事”并坚持下去,这就是Cloudera成立的原因-能够支持这类企业客户,给他们信心,并为他们提供提供易于使用的产品,并为他们提供支持的合作伙伴。

它正在发生–我们正在被广泛采用,我认为,财富50强中有一半现在是客户,并且正在采用这种东西。 它们中的大多数仍处于早期阶段–尚未在整个业务中部署。 但是它正在传播,所有这些公司都在传播对这些技术的使用。

这不会在一夜之间发生。 如果业务的核心是某些数据技术,则很难选择并转移它。 在很多情况下,Hadoop堆栈还没有为此做好准备,但是在很多情况下,今天可以使用它来给人们提供与竞争对手相比的真正优势,因此,我们看到了相当稳定的增长和采用。

JAX:展望未来,您认为Hadoop要克服的最大挑战是什么? 还是继续进行下去,这很可能会解决?

DC:我认为挑战在于应对炒作。 我认为到目前为止,我们做得很好,您确实可以存储数据并有效地对其进行处理。 这是一项非常年轻的技术,人们的想象力要领先于他们,轻松地领先于技术,因此我们需要控制期望。 同时,我们需要倾听这些期望,如果今年我们无法实现这些期望,请看明年是否能够实现它们。

到目前为止,我认为我们对此做得很好–我们已经有很多人采用它。 但是,还有很多需要改进的地方。 有一个安全故事–我们需要能够支持到处加密的事物; 我们需要更好地支持在线系统,能够进行交互式查询,更复杂的在线查询; 与各种工具的大量集成。 那里有很多工作。

JAX:使用Hadoop 2.0代码库,您认为它朝着解决这些问题的正确方向发展吗?

DC:是的,在文件系统级别上有很多性能方面的工作,在安全性方面也有很多工作。 我的意思是肯定的-方向是由用户的需求确定的,因此我认为从定义上来说,我们正朝着正确的方向前进[笑]。 Cloudera和其他人会听取客户的意见,我们将建立人们接下来最需要的东西。 它是由需求驱动的,希望我们正在听合适的人。 我想我们是!



JAX:您最近将Hadoop描述为平台本身的“内核”。 目前还有哪些其他大数据技术引起您的注意? 孵化中,Apache Software Foundation中有很多……

DC:我认为Hadoop成为该内核非常令人兴奋,而且我认为Bigtop成为使所有这些部分协调一致的开源集成点。 我认为Hadoop中的YARN项目概括了内核的运行时,以便我们可以支持各种处理。 诸如用于图形处理的Giraph项目之类的东西,我认为这将非常有用。 然后是整个实时处理,这是一个单独的开发线程,实际上并没有集成到Hadoop堆栈中。 这很有趣,不是我真正参与的事情,因此诸如Storm和F4之类的东西应该发挥更大的作用。 HBase长期以来一直是堆栈中的主要在线系统,我想在明年,我们将看到更多与Hadoop真正集成的功能,它为您提供交互式查询,这不仅是HBase的简单关键值。 。 因此,您很可能会看到交互式SQL查询以及Lucene阵营中的Lucene风格的Solr Cloud,从而为您提供可扩展的搜索-因此您可以以极低的延迟搜索PB级数据,并获得相当不错的吞吐量,同时运行许多查询。 这两个方向都是我们将看到很多进展的方向。

JAX:我只是想谈谈您在Apache Software Foundation中的角色。 您打算在那里发挥什么作用?

DC:我现在是Apache的董事长,最近几年一直在。 这实际上不是权力的位置– Apache几乎是一个全志愿组织,我们有一些承包人负责系统管理,但主要是志愿者。 因此,在这种组织中,您真的无法拥有自上而下的权力结构。 这实际上更多地是关于协调,因此,我们唯一的屈服是“警察行动”,即社区没有按照我们拥护的原则开展工作。

我们真的希望社区充当公平竞争的环境,任何人都可以参与其中,并参与项目,他们的贡献将根据其技术优势进行评估,我们不希望任何一家公司行使过多的权力在项目范围内,并为他们的商业利益而不是社区的技术需求控制项目。

因此,当我们看到类似的情况发生时,我们必须不时介入。 那是我们成为维权人士的时代。 尚不清楚,这种全志愿者的结构将无限期地扩展-十年来一直很好地扩展,但是最终我们可能需要开始雇用更多的员工。 我们从事系统管理的承包商数量有所增加。 我们有一个承包商进行市场营销和沟通。 现在,我们有一名执行助理,可以帮助管理基金会的一些文书工作,因此最终我们可能会真正成长。 弄清楚我们如何做到这一点有点困惑,以及我们如何进行筹款以支持这一点。 到目前为止,我们的筹款活动相对被动–我们能够吸引真正重视ASF存在的大公司,只是[让他们]给我们钱,这很了不起,没有附带条件,到目前为止足够了。 我们是否将继续进行更积极的筹款活动,以及随着这种持续增长而实际雇用更多人,我们将看到。

基金会的规模真是太神奇了。 我们有3000名提交者,正在开发100多个活跃项目–这是很多软件的产物,这些软件实际上是草根,自下而上的基础。

JAX:看到如此多的项目加紧了创新,真是太神奇了。

DC:它很大程度上可以自行运行,这就是设计。 我们总是压低一切,说我们不能从上到下推动它-我们负担不起。 这不仅违反了原则,我们也没有为此付出任何管理层的报酬,而且我们不能期望人们会做出回应。 因此,我们将所有内容强加给它,它确实可以运行。

贾克斯:那种精神肯定发光

DC:这很不寻常–我们没有很多例子可以参考,而且我们会不断完善。 到目前为止,它似乎正在工作。 希望我们可以继续扩展,如果不能,我们会考虑其他事情。

JAX:最后一个问题:您能否再讨论一下Cloudera的角色以及最新发行的CDH4。 这为企业解决了哪些问题?

DC:在Cloudera中,我的职位是首席架构师。 他们给了我詹姆斯·邦德(James Bond)角色–给我发黑客许可[笑]。 通常,我从事Apache事务,软件开发,帮助管理ASF的工作,并确实尝试帮助Cloudera实现其使命,并花一些时间与客户交流。 很多时间解释了Hadoop的工作方式,Apache的工作方式。

CDH 4实际上是Hadoop生态系统的下一代商业包装。 它基于开源的Bigtop项目-Bigtop版本,它将获得长期的商业支持。 Cloudera将以Bigtop开源项目尚未采用的方式继续致力于关键的错误修复和CDH的安全修复。 还与商业专有产品Cloudera Enterprise相关联,以帮助人们管理其Hadoop集群。 我们在开源和专有工作之间得出的界限是,在开发应用程序时,您所依据的API都是开源的。 您运行的用于配置,运行,监视该软件的东西主要是专有的。 如果您想要一个控制台,或者您可以在一个地方看到正在发生的一切并更改其工作方式,那么我们很乐意向您提供支持和支持。

贾克斯(JAX):好像您在那儿取得了很大的平衡。 很高兴与您道格

Doug将在即将到来的JAX伦敦和伦敦大数据大会上作主题演讲,并告诉我们如何进行“利用Hadoop释放大数据的力量”。 在此处查找更多会议信息。

照片由Felix O提供


翻译自: https://jaxenter.com/road-to-jax-london-a-chat-with-doug-cutting-104974.html

jax-rs jax-ws

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值