关键词:大数据,解决方案,hadoop,apache
总体介绍
为了从数据中寻找商业价值,如今的企业面临着越来越多的挑战:首先,新的设备和传感器不断出现,导致数据持续激增和硬件成本迅速下降。如今,更多的企业需要存储TB甚至PB的数据。其次,当客户既以关系型格式存储结构化数据,又存储非结构化数据时(例如WORD或者PDF文件、图像、视频和地理空间数据),数据会更加复杂。事实上,行业分析师证实,超过80%的数据是非结构化数据。最后,客户同样面临着数据处理速度带来的挑战——处理流式数据的企业(例如网站上的点击流)需要实时更新数据来为实时的广告服务或者向用户呈现实时的数据。
微软对Big Data已经做了很久的研究:为了呈递高质量的搜索结果,微软在Bing中分析了超过100PB的数据。另外,微软提供了一些解决方案来帮助客户面对处理大数据带来的挑战。在Microsoft® SQL Server® 2008 R2, SQL Server® Fast Track 数据仓库,商业数据仓库和SQL Server® 2008 R2 并行数据仓库中,数据仓库解决方案提供了一个可靠的并且可扩展的平台,该平台可用于在传统数据仓库中存储和分析数据。并行数据仓库(PDW)为客户提供了企业级的性能:处理超过600TB的大量数据。针对技术计算,微软还为LINQ to HPC(高性能计算)提供了分布式的运行时和编程模型。
除了以上提到的传统功能外,为了通过激活任何规模的新数据类型来向所有用户展现提供商业洞察力的版本,微软将Apache HadoopTM做为端到端发展路线的一部分。