hadoop_hellow_word

10月23日-25日,国外IT技术界迎来今年的压轴之作——Strata+Hadoop World。作为全球年度最大的Hadoop会议压轴戏,售票相当火爆,会前几周就已告罄。不止如此,长长的近80家合作伙伴名单足足四屏,主题演讲嘉宾一百余位,涵盖技术、产业、应用、工具、实践、外围建设、商业化运营等多方面的论坛议题数十个,Hadoop&BigData领域中首屈一指的专家们济济一堂。

与去年的Hadoop Summit 2011相比,2012 Strata+Hadoop World不仅会议规模和人数翻番,而且产业内支持捧场的企业更是大爆发。梳理这近80家的合作企业,除了耳熟能详的Cloudera、MapR、Splunk、SAS Institute、Rackspace、SAP、Microsoft、Intel、AMD、IBM、HP、DELL、Cisco、VMware、Amazon Web Services、NetApp之外,还有更多的创新型技术企业如Pentaho、Platfora、Alteryx、Penguin Computing、Kognitio、Feedzai、LucidWorks等。

 

支持Strata+Hadoop World的重要企业

业内对于Hadoop的前景充满无限期望。Hadoop之父Doug Cutting在“Beyond Batch”的主题演讲中表示:作为一个离线的,批处理系统,Hadoop使得实际存储和处理的数据集比以前增大很多。而后,更多互动、在线系统的出现,最初的Hbase与键/值存储,到现在的可扩展式交互式查询引擎的加入,围绕Hadoop的生态系统已经形成。在大数据领域,实时与批处理的结合将会更为紧密。”

大批在Strata+Hadoop World演讲的知名学者与专家的演讲稿(这里)与Video已经公布(这里)。

更受瞩目的是同步发布的创新技术。自2009年以来,业内对于Hadoop系统中最熟悉的产品主要有以下8种:

MapReduce 是一种算法,用于超大型数据集的并行运算;HDFS 支持千万级的大型分布式文件系统;HBase 是一个面向列的分布式数据库;Hive 是DataWareHouse 和 Map Reduce交集,适用于ETL方面的工作;Zookeeper 提供的功能包括:配置维护、名字服务、分布式同步、组服务等,用于分布式系统的可靠协调系统;Pig 是在MapReduce上构建的查询语言(SQL-like),适用于大量并行计算;Chukwa 是基于Hadoop集群中监控系统;Avro 是一个数据序列化系统,设计用于支持大批量数据交换的应用。  

而这次公布的创新技术足就有十余种。为此,我们将此次会议中重要技术信息整理如下,提供给Hadoop的从业者们参考。

1.Cloudera发布了实时查询开源项目Impala 1.0 beta版!多款产品实测表明,比原来基于MapReduce的Hive SQL查询速度提升3~90倍。Impala是Google Dremel的模仿,但在SQL功能上青出于蓝胜于蓝。据悉这个项目将以Cloudera Enterprise RTQ(Real-Time Query)为名进入CDH发行版。可以部署到生产环境的版本将到2013年一季度就绪。Cloudera Impala:基于Hadoop的实时查询开源项目  源代码下载

2.Splunk发布了Splunk Hadoop Connect和Splunk App for HadoopOps。前者可提供双向集成,轻松可靠地完成在Splunk与Hadoop之间迁移数据,后者可对端到端Hadoop环境的健康和性能进行实时监控和分析。Splunk Hadoop Connect和 Splunk App for HadoopOps即日起可供下载。Splunk实现与Hadoop的集成与监控 下载地址:Splunkbase上免费下载。

3.EMC宣布公布EMC Greenplum Chorus开源代码,并与Kaggle合作挖掘大数据科学家的社交平台。Kaggle是囊括了55000多名数据科学家的社交平台,所有Chorus社区的成员实现与Kaggle中数据专家的对接。除此以外,Actuate,ADVIZOR Solutions,Alpine Data Labs,Gnip,Informatica,Pentaho,Pervasive,SAS,Syncsor以及Tableau Software都会将自己的工具与方案与Chorus整合。合作项目将于2012年11月落地,技术开发者可以通过下载Chorus获得数据,进而实现更高开发。代码下载请关注

4.MapR宣布新的大数据平台MapR M7,为Hadoop与NoSQL提供更为方便、可靠和快速的服务。如集成的快照,镜像,即时恢复和一致性,低延迟等。通过MapR M7,大数据范围从批量分析到实时数据库功能能都可以达到企业级标准。技术上看,MapR M7可以将HBase性能进行大幅提升。首先,通过消除压缩需求,提供统一和一致的性能;其次,利用创新数据结构尽量减少read-和write-amplification,插入和更新的速度更快;第三,M7支持内存列,为提升数据库性能提供更多选择。对于这些特性,业内如Evaluator Group等已经做了相关测试,并验证了HBase性能确实实现了大幅提升。此外,通过MapR M7,HBase扩展性也得到了改善,用户可以创建1兆以上的表;实现超过20X的数列;增加了行与单元格大小来应对更大数据对象的需求。不止如此,MapR M7可以简化HBase的管理,确保没有单独进程需要监控和管理,不用手动压缩与合并,不需要人工数据库修复操作,保证不停机即可实现维修。MapR M7获得了诸多伙伴的支持。现在即可报名参加MapR M7  beta program:点击此处

5.SAP宣布通过一个新的 “big data” 捆绑方案将Apache Hadoop整合到实时数据仓库环境中,并联合 Cloudera、日立数据、Hortonworks、HP和IBM一起推出市场宣传策略(帮助SAP方案更快落地,具体可见Quote Sheet: ‘Big Data’ Bundle from SAP这里)。其基础是SAP HANA平台并结合SAP Sybase IQ server、SAP Data Integrator software、SAP BusinessObjects business intelligence (BI) solutions,目标是为不同来源的大规模数据集提供了全面的数据仓库解决方案。

在诸多企业希望通过Hadoop实现更为经济和实惠的大数据存储与处理的背景下,涵盖SAP和Hadoop主要伙伴之间的“big data” bundle或能实现从Hadoop到业务分析再到实时数据仓库的通路。如Mitsui Knowledge Industry、comScore已经走出了这一步。SAP提供了Hadoop-integrated捆绑方案:

SAP HANA database;SAP Sybase IQ,a columnar database and enterprise data warehouse database;SAP Data IntegratorSAP BusinessObjects BI suite 

通过这些集成方案,HDFS或Hive数据库中的数据可以迅速进入SAP HANA或者SAP Sybase IQ,帮助用户使用现有报告及分析工具实现BI。此外,用户也可以在SAP Sybase IQ和Hadoop的环境实现查询;在MapReduce jobs和SAP Sybase IQ MPP环境中通过使用系统内置功能交替运行;SAP BusinessObjects BI用户还能实现在Hive环境查询并对整体Hadoop环境做直接的业务分析。策略可以看SAP在大会上的演讲这里

6.微软宣布可整合Apache Hadoop运行的Windows Server及Azure产品,分别名为HDInsight Server for Windows以及Windows Azure HDInsight Service的预览版。借助在Windows Server及Azure提供Hadoop兼容性,将可降低企业部署与管理Hadoop的困难,以便从公司自有系统或云计算上任何大小的任何数据获得分析洞察,微软技术院士David Campbell认为,新产品用户还可以使用Excel、PowerPivot for Excel及Power View等熟悉工具,以便抓取分析用的数据。

微软还宣布与Hadoop商业供应商Hortonworks建立合作关系。上述产品都是采用的Hortonworks Platform 1.1为底层。而HDInsight可以让企业实现无缝迁移云计算与自建系统(on-premise)的数据。利用HDInsight Server for Windows以及Windows Azure HDInsight Service,用户可以将Hadoop上的应用移植到Windows上,而无需工程人员协助。两个预览版可于微软网站获得,点这里

7.Simba宣布推出针对NoSQL的大数据驱动程序套件( Big Data ODBC Drivers)。其允许任何基于SQL数据库分析或报告工具访问任何的NoSQL数据资源,进而实现商业智能,如ApacheHadoop/Hive,Apache Cassandra,Google BigQuery,MongoDB。

Simba’s Apache Hive ODBC Driver with SQL Connector;Simba’s Apache Cassandra ODBC Driver with SQL Connector;Simba’s BigQuery ODBC Driver with SQL Connector;Simba’s MongoDB ODBC Driver with SQL Connector 

Simba的Big Data ODBC Drivers有众多用户基础,如Alteryx,DataStax,Hortonworks,MapR和Tableau等。新发布的驱动完全遵从ODBC3.52数据标准,并增加了诸如支持所有32和64位高性能平台的特性,其中包含 Windows,RedHat,SUSE,Solaris,AIX,HP-UX and Mac OS X。这里

8.Datameer宣布推出Datameer Analytic Applications Market和免费试用版Datameer 2.1。通过这一平台,数据科学家和中小企业领域专家可以创建、封装并销售相关的分析应用程序,以快速满足不同的用户大数据分析需求。而通过这一平台,企业也不用花费大量时间与资源构建解析模型,而是通过这样的App Market尽快以最小成本获得Hadoop的应用程序和代码。Datameer应用是构建在Hadoop上的分析应用,其可以对任何类类型或数量的数据,无论大小、结构化、半结构化还是非机构化数据进行处理。一旦下载,Datameer可以实现俄安全定制,用户依照需求建立或调整分析及可视化图形。现在Analytic Applications Market已经提供了各种免费应用程序,如email和社会情感垂直分析等,还有一些高端应用,如Salesforce sales-cycle analysis。

这是一个关于分析、可视化等应用的自助平台。除了单击应用程序进行安装和创建之外,Datameer 2.1还提供了商务分析。包含一些最热的数据应用进行集成,如Email,Google AdSense,Facebook,Twitter,LinkedIn,Salesforce,Zendesk,GitHub,Atlassian JIRA,Google Analytics等。由此也使得电子表格中进行数据的迭代分析更加简便且快捷。先进的可视化工具使商业图表演示功能更完美。免费试用版Datameer 2.1 此处

9.Tableau Software宣布与Cirro, DataStax,Digital Reasoning,EMC Greenplum,Hadapt,Hortonworks,Karmasphere和Simba等大数据技术企业建立合作伙伴关系。这些企业与之前的合作伙伴如Teradata/Aster, HP Vertica, ParAccel, Actian VectorWise, IBM Netezza, MapR等将一起提供桌面、企业端、网络和移动设备等方面的视觉分析整体方案。Tableau Software已经构建广泛的生态系统,可以满足基于Hadooop架构的各类BI需求。举例来看,Tableau Software可以通过Hive interface如新的Hortonworks Hive ODBC Connector来与基于Hadoop架构Hortonworks Data Platform 相连;Tableau Software可以连接到集合Apache Cassandra, Hadoop和Solr的DataStax Big Data平台上。用户通过使用Tableau Software分析他们在DataStax商业版上的数据。除此以外还有很多。

10.SiSense宣布推出世界上最小的大数据分析解决方案——SiSense Prism ,旨在满足更多商业企业如中小企业、创业企业的数据分析需求。其方案可以在仅有8GB RAM内存的笔记本(市场价750美元)上分析1TB数据。不需要庞大的预算、昂贵的硬件或数据仓库,仅需要一小部分投资,SiSense Prism 包含一个高性能分析数据库,简单的数据提取(ETL)和基于网络的数据可视化。Elasticube技术是SiSense Prism所特有的,对于内存柱状存储、强大的数据压缩、并行处理和查询优化等以前更多在高端方案中应用的能力均有体现。与目前内存分析方案(in-memory analytics solutions)相比,其允许非技术用户分析100倍以上的数据,并能提升至少十倍的处理速度。不需要构建复杂的数据仓库或OLAP,也不需要编码或者脚本,无论数据多大或来自于哪里。其主要技术优势如下:

处理能力是RAM内存方案的100x倍以上;存储并查询亿行数据;从所有数据库中自动提取(Automatic extraction ("ETL") ),如Microsoft SQL Server, Oracle, MySQL, PostgreSQL和Intuit QuickBase, 以及应用如Salesforce.com, Google Adwords, Google Analytics, Google Spreadsheets, Zendesk和Intuit QuickBooks, 以及来自Hadoop/Hive的数据;在HTML 5和JavaScript的基础上构建基于Web的可视化。 

SiSense Prism下载地址在这里

如上所说,几乎所有IT知名制造商都已经投入支持Hadoop的怀抱。除了这十家在Strata+Hadoop World宣布新品及技术的企业之外,还有IBM日前宣布的行业分析方案InfoSphere BigInsights也是以Hadoop为基础,可整合传统数据库中的结构化数据及非结构化数据等多种数据源来分析。VMware在6月也发布Serengeti部署工具组,可协助企业在虚拟化与云计算环境中快速部署Apache Hadoop。HP也推出了专为执行Hadoop而设计的专用系统HP AppSystem for Apache Hadoop。

这只是一个开端,有更多创新型企业投入到Hadoop生态链的研发中,新工具与技术频频被更新。比如Birst的Birst Big Data Services可以实现非结构化数据和半结构化数据的存储,并在此基础上使得用户不需要更多MapReduce知识或其他复杂技能就能通过封装功能实现分析应用。由此,实现了结构化关系数据存储的新的连接服务,以及对于新类型数据的可视化工具分析。再如Splice Machine在SQL数据库之上构建了Hadoop分布式文件系统,并与近期获得来自Mohr Davidow Venture的第一轮400万美元的融资。其宣称可以在HDFS和HBase的分布式基础上提供SQL函数和事务的服务。

可惜的是,没有听到国内企业的强音。但就CSDN云计算频道观察,国内锐意进取的企业,如淘宝、腾讯、百度、Sina、阿里、中国移动、京东商城等在Hadoop方面都走的很是深远。文/郭雪梅,@云计算大梅

文章的最后,用一首七律共勉,希望我们的企业能在这场技术战斗中获得更多机会:

钟山风雨起苍黄,百万雄师过大江。 

虎踞龙盘今胜昔,天翻地覆慨而慷。 

宜将胜勇追穷寇,不可沽名学霸王。 

天若有情天亦老,人间正道是沧桑。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值