随着物联网、智能设备和人工智能等先进技术在企业生产运营过程中的广泛应用,随之而来的是大量的数据产生。如何采集、存储海量大数据,深入挖掘数据的潜在价值,为企业的生产运营提供可靠保障,进而提升企业经济效益,是越来越多的企业迫切解决的问题。近年来,很多企业建设内部统一的大数据平台,利用集群架构去整合资源与服务,从而发挥企业诸如资源共享、数据共享和服务共享等优势。那么,企业级大数据平台应具备什么样的基本能力以及如何进行相关技术选型呢?企业级大数据平台至少应具备基本以下几种能力,如下图所示:

  企业大数据平台基本能力

  接下来,我们将针对以上五种能力,逐个进行阐述:

  数据收集能力

  公司和企业内部每天在不断产生数据,这些信息可能会有更高的商业价值。企业内部数据关注的的是整体运行和经营情况,也是企业核心业务指标的分析来源。因此,对数据接入的实时性、可靠性要求较高,考虑到这一点要求,内部数据的收集应具备推送和拉取两大能力,这两种能力各有优缺点。推送模式的主动权在数据源方,在高峰期,推送的数据量过大,造成数据接入方的压力过大或无法及时处理。一种解决方案是加上消息队列,进行一步处理,以达到缓冲效果。如下图所示:

  推送模式

  拉取模式的主动权在数据接入方,可以根据业务应用的需要,周期性读取数据,高峰期产生的海量数据会在闲时被消化,关键的问题是数据处理的延迟明显增加。如下图所示:

  拉取模式

  技术选型上推荐Flume。Flume是一个分布式、高可靠和高可用的数据采集采集系统,提供推送和拉取两种采集模式。当然,我们还需要根据企业生产运营数据特征,解决如何建立起一套标准化、规范化的数据模型体系,以及灵活、可扩展的技术体系,以适应体量大、多源异构的海量数据接入需求。

  数据存储能力

  面对与日俱增的海量数据,企业大数据平台如何存放它们呢?是持久化存储还是非持久化存储?如何提供业务应用和数据分析要求的高效查询能力呢?数据存储应具备持久化存储和非持久化存储两种能力。

  对于持久化的存储而言,最关键的问题是选择文件系统和数据库系统。在大数据时代,单台计算机已经无法满足数据存储和处理的需求,必须采用集群化的方案。近几年,NoSQL(Not Only SQL)非关系型数据库应运而生且逐渐成熟,其产生就是解决海量数据所带来的大数据应用难题。技术选型上推荐分布式文件系统HDFS(Hadoop Distributed File System)和对应的分布式非关系型(非结构化)数据库系统HBase,以及另一个非关系型的数据库MongoDB。

  无论是Hadoop的HDFS、HBase还是MongoDB等非关系型数据库,都是为了解决大量数据的高效分布式存储。虽然具体的实现方式和应用场景有所不同,但目标均是为了数据持久化存储。还有一种数据存储方式是在内存中的非持久化存储,特征是数据量不大,断电会丢失,但读取速度非常快。非持久化存储一般采用散列(Hash)的Key-Value存储方式,适合使用缓存(Cache)的应用场景。技术选型上推荐常用的Memcached、Berkeley DB和Redis。

  数据处理能力

  企业级大数据平台数据处理能力集中在用户如何利用现有的数据进行查询和分析,最终达到商业目标,要充分体现数据价值,就需对数据进行进一步的加工、分析和挖掘。根据数据处理的及时性不同,主要分为在线实时处理和离线批量处理,在线和离线的区别就在于对实时性的要求。由于离线对于响应没有过高的要求,因此适合对海量数据进行批量处理的应用场景。推荐的技术:Hadoop的MapReduce和Spark。离线批量处理在一定程度上解决了大规模数据并行处理问题,当数据产生频率高、更新时间快的情况下,在线实时处理的优势就会体现出来了。当然,在线实时处理始终要依赖及时消息机制来支撑其运行,例如,Kafka、MQ等消息中间件。消息机制可以及时通知在线实时处理程序进行相应的处理,比起离线批量处理方式,在线实时处理可以极大提升实时性。推荐的技术方案:Storm、Spark Streaming。

  信息检索能力

  信息检索侧重于信息的相关性和查询的高效性,包含三个子领域:搜索引擎、推荐系统、在线广告。在企业大数据平台应用应具备的能力是实现全文检索功能或者建立完整的全文检索引擎。技术选型上推荐Lucene、Solar、Elasticsearch。

  数据挖掘能力

  数据挖掘侧重于发现数据内部更深层次的价值。数据挖掘的类型,分为传统的关系型数据库和非结构化数据两大类。根据数据挖掘目标的不同,数据挖掘的任务和技术也有所不同,一般的数据挖掘主题应具备集中能力:发现关联性的频繁项分析、用于预测的分类和回归分析、发现相似性的聚类分析、发现离群现象的异常点分析等。推荐技术研究方向包括分类监督学习、回归监督学习、聚类非监督学习,挖掘工具推荐Mahout和R。

  结束语:企业级大数据平台基本能力概括为:数据收集能力、数据存储能力、数据处理能力、信息检索能力和数据挖掘能力。企业大数据平台应至少具备这五种能力,才能实现真正意义上的大数据平台应用。郑州看不孕不育×××:jbk.39.net/yiyuanzaixian/zztjyy/郑州不孕不育检查:yyk.familydoctor.com.cn/12248/