作者:禅与计算机程序设计艺术
1.简介
随着互联网信息飞速增长和社会生产力提升,传统行业已经遇到了新的挑战。以前简单的收发短信、电话、打车等小型互联网业务,现在已经不再受到单一服务商支撑。而企业面临的最大挑战,则是如何处理海量数据和高速增长的实时需求。因此,基于数据的分析和决策,新一代信息技术开始崛起,例如“智慧城市”、“大数据分析”等。
今天,我们主要关注基于大数据及机器学习的决策支持系统,探讨如何通过大数据时代的方法、工具、方法论、技术来实现决策支持系统的建设。所谓“大数据”,指的是海量、多样化、实时、动态的信息,是一种通过计算机和网络技术进行处理、存储、分析、挖掘的一类数据的总称;所谓“决策支持系统”,是指用数字技术或机器学习方法从海量数据中提炼出有价值的信息、制定数据驱动的决策策略、优化运营管理流程的一种软件产品。
本文将从以下六个方面,对“大数据时代的数据采集、处理与应用”进行阐述。
第一,介绍大数据产生背景,说明大数据的定义及其特征。 第二,介绍基本概念术语——“数据采集、清洗、转换、加载”(Data Collection, Cleaning, Transformation and Loading),以及“数据仓库”(Data Warehouse)。 第三,介绍分布式计算框架之“MapReduce”,并提供相应的操作方法和案例。 第四,介绍流计算框架之“Storm”和“Flink”,并给出各自的特点、适应场景、优缺点。 第五,结合机器学习相关理论介绍“数据预处理”和“特征工程”。并说明它们对模型精度的影响。 第六,最后,提供一些未来的展望与建议。