“大数据”一词在过去十年中开始出现在词典中,但这个概念本身至少从二战开始就已经存在。最近,无线连接、互联网 2.0 和其他技术使对海量数据集的管理和分析成为我们所有人的现实。
大数据是指对于传统的数据处理和数据管理应用来说过于庞大和复杂的数据集。随着移动技术和物联网的出现,大数据变得越来越流行,因为人们使用他们的设备产生越来越多的数据。考虑由地理定位服务、网络浏览器历史记录、社交媒体活动甚至健身应用程序生成的数据。
该术语还可以指收集和分析大量数字信息以生成商业智能的过程。随着数据集的不断增长,应用程序产生更多的实时流数据,企业正在转向云来存储、管理和分析他们的大数据。
了解 Talend 如何帮助电子商务巨头 OTTO利用大数据与亚马逊竞争。
是什么让大数据如此重要?
消费者生活在一个即时期望的数字世界中。从数字销售交易到营销反馈和改进,当今基于云的商业世界中的一切都在快速发展。所有这些快速交易都以同样的速度生成和编译数据。实时充分利用这些信息通常意味着利用信息获取目标受众的 360 度全景,或将客户流失给这样做的竞争对手之间的区别。
管理和利用数据操作的可能性(和潜在的陷阱)是无穷无尽的。以下是大数据可以改变组织的一些最重要的方式:
商业智能
- 商业智能旨在描述大数据的摄取、分析和应用以造福组织, 是争夺现代市场的关键武器。通过绘制和预测活动和挑战点,商业智能让组织的大数据代表其产品发挥作用。
创新
- 通过分析行业和市场中发生的无数交互、模式和异常现象的潜望镜级别视图,大数据被用于将新的、有创意的产品和工具推向市场。 想象一下,“Acme Widget Company”查看其大数据图并发现,在温暖的天气中,Widget B 在中西部的销量几乎是 Widget A 的两倍,而在西海岸和南部的销量保持不变。Acme 可以开发一种营销工具,通过独特的广告来推动针对中西部市场的社交媒体活动,突出 Widget B 的受欢迎程度和即时可用性。通过这种方式,Acme 可以将其大数据用于新的或定制的产品和广告,从而最大限度地提高利润潜在的。
降低拥有成本
- 如果节省一分钱就是赚一分钱,那么大数据带来了赚大钱的潜力。IT 专业人员不是通过设备的价格标签来衡量运营,而是根据各种因素来衡量运营,包括年度合同、许可和人员开销。 从大数据运营中挖掘出的洞察力可以快速明确资源在哪些方面未得到充分利用以及哪些领域需要更多关注。这些信息一起使管理人员能够保持足够灵活的预算以在现代环境中运作。
几乎每个行业的组织和品牌都在使用大数据开辟新天地。航运公司依靠它来计算运输时间和设定费率。大数据是开创性科学和医学研究的支柱,带来前所未有的分析和研究能力。它影响着我们每天的生活方式。
大数据的五个V(+1)
大数据通常由行业专家通过 5 V 进行限定,每一个都应该单独处理,并考虑它与其他部分的交互方式。
量- 为将要使用的数据量制定计划,以及如何以及在何处存储这些数据。
多样性- 识别生态系统中所有不同的数据来源,并获得正确的工具来摄取它。
速度- 同样,速度在现代商业中至关重要。研究和部署正确的技术,以确保尽可能接近实时地开发大数据图片。
真实性- 垃圾进,垃圾出,所以要确保数据准确和干净。
价值- 并非所有收集的环境信息都同等重要,因此构建一个大数据环境,以易于理解的方式呈现可操作的商业智能。
我们想再添加一个:
美德——大数据使用的道德问题也需要根据数据隐私和合规的所有法规来解决。
了解 Talend 如何帮助企业 降低集成大数据的成本。
分析、数据仓库和数据湖
大数据实际上是关于新用例和新见解,而不是数据本身。大数据分析是检查非常大的细粒度数据集以发现隐藏模式、未知相关性、市场趋势、客户偏好和新业务洞察力的过程。人们现在可以提出传统数据仓库无法解决的问题,因为它只能存储聚合数据。
Imagine for a minute looking at a painting of Mona Lisa and only seeing big pixels. This is the view you’re getting from customers in a data warehouse. In order to get the fine-grained view of your customers, you’d need to store fine, granular, nano-level data about these customers and use big data analytics like data mining or machine learning to see the fine-grained portrait.
数据湖是一个中央存储库,它以原始的粒度格式保存来自许多来源的大数据。它可以存储结构化、半结构化或非结构化数据,这意味着数据可以以更灵活的格式保存以备将来使用。存储数据时,数据湖会将其与标识符和元数据标签相关联,以加快检索速度。数据科学家可以使用数据湖更快、更准确地访问、准备和分析数据。对于分析专家来说,这个庞大的数据池(以各种非传统格式提供)提供了独特的机会来访问各种用例的数据,例如情绪分析或欺诈检测。
了解数据湖和数据仓库之间的差异。
了解为何 Talend 连续第六年在 2021 年数据集成工具魔力象限™ 中被评为领导者
获取报告处理不常见数据的常用工具
掌握上述所有内容从基础开始。在大数据的情况下,通常涉及 Hadoop、MapReduce 和 Spark,Apache 软件项目的 3 种产品。
Hadoop是一种开源软件解决方案,旨在处理大数据。Hadoop 中的工具有助于将处理海量数据集所需的处理负载分配到几个或几十万个独立的计算节点上。Hadoop 没有将 PB 的数据移动到一个微小的处理站点,而是相反,大大加快了信息集的处理速度。
顾名思义,MapReduce有助于执行两个功能:编译和组织(映射)数据集,然后将它们细化为用于响应任务或查询的更小、有组织的集。
Spark也是 Apache 基金会的一个开源项目,它是一个用于大规模处理和机器学习的超快速分布式框架。Spark 的处理引擎可以作为独立安装、云服务或任何流行的分布式计算系统(如 Kubernetes 或 Spark 的前身 Apache Hadoop)运行。
来自 Apache 的这些和其他工具是在您的组织中充分利用大数据的最值得信赖的方法之一。
大数据的下一步是什么
随着云技术的爆炸式增长,处理不断增长的数据海洋的需求成为设计数字架构的底层考虑因素。在交易、库存甚至 IT 基础设施可以以纯虚拟状态存在的世界中,良好的大数据方法通过从许多来源摄取数据来创建整体概览,包括:
- 虚拟网络日志
- 安全事件和模式
- 全球网络流量模式
- 异常检测和解决
- 合规信息
- 客户行为和偏好跟踪
- 地理位置数据
- 用于品牌情感跟踪的社交渠道数据
- 库存水平和发货跟踪
- 影响您的组织的其他特定数据
即使是对大数据趋势最保守的分析也表明现场物理基础设施的不断减少和对虚拟技术的依赖越来越大。随着这种演变,对工具和合作伙伴的依赖将越来越大,这些工具和合作伙伴可以处理机器被模拟它们的位和字节所取代的世界。
大数据不仅仅是未来的重要组成部分,它可能就是未来本身。业务、组织和支持他们的 IT 专业人员完成其使命的方式将继续受到我们存储、移动和理解数据方式的演变的影响。
大数据、云和无服务器计算
在引入云平台之前,所有的大数据处理和管理都是在本地完成的。Microsoft Azure、Amazon AWS和 Google BigQuery等基于云的平台的引入现在使远程完成数据管理流程成为可能(并且具有优势)。
无服务器架构上的云计算为企业和组织带来了一系列好处,包括:
- 效率- 存储层和计算层都是解耦的,只要您在存储层中保留数据量以及进行所需计算所需的时间,您就需要付费。
- 缩短实施时间——与部署需要数小时到数天的托管集群不同,无服务器大数据应用程序只需几分钟。
- 容错和可用性——默认情况下,由云服务提供商管理的无服务器架构提供基于服务级别协议 (SLA) 的容错和可用性。所以不需要管理员。
- 轻松扩展和自动扩展——定义的自动扩展规则可以根据工作负载扩展和扩展应用程序。这有助于显着降低加工成本。
选择大数据工具
大数据集成工具有可能大大简化这个过程。您应该在大数据工具中寻找的功能是:
- 许多连接器:世界上有许多系统和应用程序。您的大数据集成工具拥有的预建连接器越多,您的团队节省的时间就越多。
- 开源:开源架构通常提供更大的灵活性,同时有助于避免供应商锁定;此外,大数据生态系统由您想要使用和采用的开源技术组成。
- 可移植性:随着公司越来越多地转向混