让大数据与深度学习不分家

至顶网软件频道消息:继大数据热之后,以深度进修为代表的人工智能成为当下最为热点的手艺,越来越多的企业已经或者正在预备进军深度进修,特别是那些已经在大数据规模投入了重金,建立起了复杂的大数据集群的公司,由于有了大数据的这个根本,在深度进修之路上更为积极和主动。

不外,对付其中一些初涉人工智能手艺的公司,要想从深度进修手艺受益并不随意。此时,很是希望有一款简单好用的深度进修框架,基于此可以快速开发本身的深度进修应用,从而尽快从人工智能这项手艺中受益。好在用户的这一希望并非梦想,今天市场上已经有这类手艺处理方案,英特尔去年开源的大数据深度进修框架BigDL就是其中之一,并且是其中的佼佼者。据悉,BigDL如今已经被用户遍及认可,在不少企业级应用中阐扬重要浸染。

简化Hadoop用户的AI之路

英特尔是芯片行业的龙头老迈,这一点人所共知。而不少人不体味的是,英特尔仍是大量软件研发人员开发出不少优秀的软件产物,其中除了一些为优化芯片机能的函数库之外(比如计较函数库 Math Kernel Library),也网罗一些应用软件,比如大数据。BigDL是英特尔在大数据规模开发的浩繁软件中的一个。

BigDL是一个基于Apache Spark的开源分布式深度进修框架,于2016年12月对外正式公布。“我们的目的是让深度进修和大数据平台可以无缝、很是随意地连系在一起,使得深度进修更易于被大数据的社区和数据科学的社区使用。”英特尔高级首席工程师、大数据手艺全球CTO戴金权谈及研发这个软件的缘故缘由时表示。

戴金权告诉至顶网记者,这款产物首要面向使用Hadoop停止大数据的存储和分析措置的用户。它们在Hadoop上有过较大投入,拥有大量数据集存储在存储在Hadoop集群中。若是想把持数据停止深度进修的练习,通常必要把这些数据导出,然后停止措置。这个过程耗时并且投资不小,BigDL的目的就是让这些用户可以直接在Hadoop平台上停止深度进修的练习。

“在真正的消费情形傍边,良多时辰数据量是非常复杂的,要做很是多的数据清洗、数据措置工作。这些消费数据通常存储在大数据集群里,或者是分布式文件体系HDFS或者是分布式表存储Hbase,集群规模可能达几千台、几万台。若是再设立一个零丁的集群专门做深度进修,首先要做的工作就相称于要把这些数据从几千台、几万台大数据集群拷贝到新的集群上,然后再停止分析。并且这还不是一个一次性的工作,由于数据在不竭的变化中,必要对数据停止不合的措置和分析,这个数据拷贝的过程成为了很是大的瓶颈。

戴金权诠释说,英特尔要做的就是让用户使用BigDL,如许就可以直接在现有的大数据集群上用深度进修手艺来分析大数据,而不必要对数据停止任何拷贝。而之所以选择基于Apache Spark来开发BigDL,是由于Apache Spark是今天在大数据分析规模最领先、使用最遍及的大数据分析框架。“Apache Spark本身供给了一个很是高机能的分析引擎——一个基于内存的低延时、分布式数据分析的引擎,在上面用户可以停止各类各样的数据分析,良多Hadoop的应用都接纳了Spark。” 戴金权说。

降低AI的进修本钱

除了本钱节约之外,BigDL的另一个特点是可以大大降低Hadoop用户的AI进修本钱,比如,经由过程重用Hadoop平台上的现有大数据工具和流程,网罗工作流的办理、资源办理等,如答应以大大进步用户深度进修应用的开发服从以及应用安排的服从。

“当深度进修被越来越多的人所接收后就希望它可以应用在消费中,而在构建新的人工智能深度进修应用时,那些通俗大数据的用户虽然拥有大数据工程师或者数据科学家、数据分析师,但这些人很可能只会写SQL,并不擅长编程代码,也不是深度进修的专家,他们曩昔首要使用Hadoop、Spark平台来办理数据,对数据停止SQL措置、流分析,或者做必定的数据发掘、机械进修、图分析等。”戴金权表示,这些人使用的一整套工具、架构和深度进修社区的工具、架构之间是有“断层”的,有了BigDL之后这些人就可以顺遂填补这个“断层”。

戴金权说,英特尔希望借助BigDL来辅佐用户,特别是大量的通俗用户来跨越上述断层,可以让他们使用斗劲熟悉和体味、对他们来说也加倍友爱的一个软硬件架构,来让深度进修手艺在他们现有的应用情形傍边落地。

据悉,BigDL于2016年12月在GitHub上公布了第一个版本后,在接下来差不多一年多的时辰公布了四个主版本。其中除英特尔外,BigDL也收到浩繁社区用户的代码进献,比如阿里巴巴等等。而在用户方面,今朝,BigDL四个版本都有效户在使用,普及良多行业用户,也不乏着名用户。比如在国外有AWS、Azure、IBM、MasterCard,在国内有阿里巴巴、京东、金山云等。“

“我们很自傲,我们认为BigDL是今朝为止所看到的在大数据平台上开发深度进修应用的最好的框架和平台。” 戴金权说。

很显然,戴金权所说的这份自傲并非盲目。

末了值得一提的是,英特尔其其实人工智能整个的手艺栈上是做了很是多的工作,英特尔不息努力于供给端到端全栈人工智能处理方案,从设备端到搜集到数据中心到云端,从底层硬件再到上层的优化计较库,比如英特尔的数学焦点函数库MKL(Math Kernel Library),这是英特尔平台上最快的数学计较库,还有英特尔Nervana Graph计较库等,英特尔在上面也做了大量针对英特尔平台的优化工作,从TensorFlow到Caffe、Caffe2、AlexNet等,固然也网罗基于Spark上的BigDL分布式深度进修的计较库等。

推荐一个大数据学习资料群:119599574每天晚上20:10都有一节【免费的】大数据直播课程,专注大数据分析方法,大数据编程,大数据仓库,大数据案例,人工智能,数据挖掘都是纯干货分享。

展开阅读全文

没有更多推荐了,返回首页