云计算与大数据未来_大数据的未来与云相关

最新推荐文章于 2024-08-06 21:32:10 发布

danpu0978

最新推荐文章于 2024-08-06 21:32:10 发布

阅读量160

点赞数

文章标签：大数据人工智能 java 编程语言机器学习

原文链接：https://www.javacodegeeks.com/2014/05/the-future-of-big-data-is-linked-to-cloud.html

版权

云计算与大数据未来

数据量呈指数增长。如果可以将来自Twitter，LinkedIn，邮件列表等的非结构化数据与结构化数据结合起来，则有可能改变许多行业。机器学习，自然语言处理，情感分析等。每个人都在谈论它们，几乎没有人真正大规模地使用它们。不幸的是，谈论大数据的人太多了，从答案开始，然后问是什么问题。答案似乎是Hadoop。新闻快讯：Hadoop不是答案，如果您从答案开始寻找问题，那么您做错了。

什么是常见数据问题？

大多数大数据问题都与存储和报告有关。如何存储所有呈指数增长的数据，以使业务经理在需要时可以在几秒钟内到达呢？关键问题是临时报告，适当的预测以及如何以指数方式增长的数据流。

大数据存储？

您是否有关系数据，非结构化数据，图形数据等？您如何存储不同类型的数据并使之在企业内部可用？大数据存储的基础是云存储技术。您想要存储任何类型的数据并能够快速扩展存储。 RedHat没有以1.75亿美元的价格收购Inktank，因为传统存储解决了当今的所有问题。高级SAN和其他存储技术已经过时了。对于大数据而言，它们太昂贵了。他们的设计理念是每个字节的数据对于企业都是至关重要的。不幸的是，情况不再如此。您介意交易数据的丢失。您不介意从内部低影响力服务器上从Datasift或Apache日志文件中购买的太多示例推文。在这里，Inktank的Ceph等云存储解决方案允许构建可靠，可扩展且极具成本效益的商品存储。这是否意味着您不再需要SAN？又错了。电视没有杀死电台。同样在这里。

需要云存储技术，因为每种数据的行为都不同。如果您仅添加了日志数据，那么HDFS就可以了。如果您的数据大部分是只读的，那么关系数据库是理想的。如果您主要是写数据，则需要查看NoSQL。如果您需要大量读写操作，那么您需要强大的大数据架构技能。更重要的是：短延迟，一致性，可靠性，廉价的存储空间等？这些都意味着解决方案是不同的。没有延迟意味着内存或固态硬盘。一致性意味着事务性。可靠性意味着复制。您现在甚至可以找到不一致的数据库，例如BlinkDB。不再有一种适合所有人的尺寸。 Oracle不再是每个人的数据问题的答案。

公司需要什么？公司需要能够提供这些不同存储功能（例如服务）的云存储解决方案。亚马逊的RDS，DynamoDB，S3和Redshift是公司需要的例子。但是，公司需要更大的灵活性。他们需要能够在公共云提供商之间迁移数据以优化成本并增加安全性。他们还需要能够将数据存储在私有本地云或附近托管的私有云中，这是出于延迟或法规方面的原因。

ETL和BI的未来

传统ETL将迎来一场革命。 ETL从未奏效。业务经理不想要求他们的IT部门更改星型架构，以便从Internet导入一些额外的数据，然后更新报表和仪表板。业务经理希望使用一种易于使用的工具来回答其临时查询。这就是Tableau Software + Amazon Redshift疯狂增长的原因。但是，如果您的组织开始将TB的数据注入Redshift，请注意：亚马逊将向您发送账单，表明您的CxO不想付款，他/她将希望您离开亚马逊。那你要怎么办您有退出策略吗？

ETL和BI的未来将是任何业务经理都可以用来创建临时报告的Web工具。 Office一代希望看到动态HTML5 GUI，使它们能够将数据查询拖放到临时报告和仪表板中。如果您需要培训，则该工具太难了。

这些下一代BI工具将需要动态的后台解决方案，以将实时，图形，blob，历史关系，非结构化等数据存储到通常可访问的云存储解决方案中。每个都将由不同的云服务托管，但是它们都将成为一个API。软件将以知道如何导出自己的数据的方式打包。为什么您需要知道Apache将访问和错误日志存储在何处以及以哪种格式存储？ Apache应该能够以标准化的方式将其包含的所有有趣信息导出到某个深度存储中。应该使用机器学习来决定如何最好地存储该数据，以便以后进行临时报告。人类不再应该参与这个过程。

谈论机器学习。随着数据量从千兆字节增长到PB级，传统数据科学家将无法扩展。在许多公司中，数据科学家类似于报表猴子：“找出为什么我们在X区域少卖了Y％”，等等。数据科学家不应是动态报表生成器的代名词。数据科学家应该是机器学习专家。他们应该告诉计算机他们想要什么，而不是他们想要什么。当今的数据科学家以R，Python等为傲，他们为此感到自豪。这些工具太底层了，无法大规模使用。世界上没有足够的人学习R。数据正在呈指数增长，R专家充其量只能线性增长。我们需要的是机器学习GUI解决方案，例如RapidMiner Studio，但受Petabyte云解决方案支持。短期解决方案可以是RapidMiner StudioHTML5 GUI版本，该版本可连接到后端云服务集，该后端服务使用一些不错的Apache Spark扩展进行机器学习，流传输，大数据仓库/ SQL，图形检索等。或基于Druid.io的解决方案。当然，还有其他解决方案。

重要的是公司开始意识到数据正在成为一种战略武器。那些能够收集更多信息并将其转化为有价值的知识和智慧的公司将成为明天的巨人。仅仅通过向它们扔越来越多的数据，大多数普通的机器学习算法就会变得更好。这意味着拥有大数据架构并不像拥有行业中训练有素的模型并继续对其进行训练那样重要。有与没有之间会有数据鸿沟。谷歌，Facebook，微软和其他公司一直在收购任何一家闻所未闻的公司。他们这样做有充分的理由。他们知道，明天的算法和模型将比钻石和黄金更有价值。如果您想成为拥有者之一，则需要立即投资云存储。您需要拥有大量的历史数据量来训练明天的算法并立即开始构建基础……

翻译自: https://www.javacodegeeks.com/2014/05/the-future-of-big-data-is-linked-to-cloud.html

云计算与大数据未来

danpu0978

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
云计算与大数据未来_大数据的未来与云相关

云计算与大数据未来数据量呈指数增长。如果可以将来自Twitter，LinkedIn，邮件列表等的非结构化数据与结构化数据结合起来，则有可能改变许多行业。机器学习，自然语言处理，情感分析等。每个人都在谈论它们，几乎没有人真正大规模地使用它们。不幸的是，谈论大数据的人太多了，从答案开始，然后问是什么问题。答案似乎是Hadoop。新闻快讯：Hadoop不是答案，如果您从答案开始寻找问题，...
复制链接

扫一扫