读书笔记-增强型分析:AI驱动的数据分析、业务决策与案例实践

本文围绕业务分析的三个层次,阐述数据科学家成长路径、大数据探索与预处理、预测模型技术、序列分析及决策分析等内容。介绍增强型分析概念,强调其需完成大数据存储访问、流程组件化等要点,还提及应用数据分析做最优决策的方法和场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

前言

运用人工智能技术,可以使人类社会变得更美好。人们总是期待产品更适合、服务更贴心、生活更便利。在实践中,技术给企业赋能,企业通过优质的产品和服务满足社会,提升人类福祉。很多金融企业已经开始尝试向潜在客户推送更加精准的产品信息,通过智能投顾及产品交叉销售挖掘来满足客户多样化的潜在需求,开发各种人工智能助手协助客户获得更便利的服务体验。高德纳(Gartner)公司提出了客户体验的金字塔模型,如图1所示,根据客户是否需要、客户是否知道、产品服务触达情况细分了六个层次。我相信,在满足客户体验方面,还存在广泛的技术应用空间。

本文作者在书中围绕业务分析的三个层次,即描述性分析、预测性分析及规范性分析,对数据科学家的成长路径、大数据探索和预测、预测模型信息技术、序列分析、决策分析以及三种人工智能技术等方面进行了深入阐述,相对全面地介绍了所涉及的典型算法、工具、业务问题的解决案例等。

增强型分析(AugmentedAnalytics)于Gartner在2017年7月发表的《增强型分析是数据及分析的未来》[1]报告中首次进入人们的视野。其核心的概念包括:

  • 智慧数据洞察(SmartDataDiscovery)。应用相关的工具能够比较智能和自动化地实现数据收集、准备、集成、分析、建模,能够输出各种洞察,可以为人们在战略方向、对应具体范围的战术活动(如针对某市场机会发起营销)、执行(具体执行营销策略)等不同层面的活动提供指导,包括相关关系的发现、模式识别、趋势判断与预测、决策建议等。

  • 增强型数据准备(AugmentedData Preparation)。提供智能化的工具使得业务人员能够快速、轻松地访问数据,并连接各种数据源通过统一的、标准化的、可交互的视图展现内容、数据间的关系等。同时提供丰富的工具进行自动数据归约、清洗、智能化分箱、降噪等功能。增强型数据要能够在原数据和经过数据治理后的数据间灵活处理,尽量避免因为数据治理而丢失信息,同时也避免在大量原数据间进行无序的探索。

从上述的定义中可以看出,增强型分析的特点是其可以智能和自动地完成数据准备和数据分析的工作。对于增强型分析的一个美好的预期就是“交给机器大量的原数据,机器直接针对特定场景给出决策建议”。要实现这个愿景需要人们至少完成如下的几个要点。

  1. 大数据存储与访问:基于大数据平台的存储、计算的相关技术发展很快,目前已经比较成熟,能够高效地处理大量数据。

  2. 数据分析流程的组件化、标准化改造:数据分析过程中关键步骤如数据收集、准备、集成、分析、建模等过程,需要细分为不同的子任务,并通过子任务间的灵活搭配构成数据分析的流程。流程的自动化运行以及对应的有价值的结果输出已经有了较好的组件,如H2O等。

  3. 提供大量的算法支持数据处理、模型构建:算法既可以用来构建业务模型,也可以用来分析数据间的关系、进行变量聚类等工作。

  4. 将“模型洞见到业务决策”纳入分析范围:模型输出洞见,如模型输出每一个客户的购买可能性,还需要配套如“当购买可能性大于90%时再根据时机因素进行推荐”的业务决策,才能在实际营销活动中实施。这是一个“洞见—决策—行动”的过程。

  • 实现增强型分析所需的技术势必是庞杂的,本书的重点涵盖范围是数据处理、算法及模型、“模型洞见到业务决策”的分析等内容。这些内容既是我们日常建模时要用到的技术,也是增强型分析中必不可少的内容。虽然增强型分析的表现形式是追求智能化、自动化等功能,但是增强型分析的终极目标还是通过数据分析发挥数据价值。目前增强型分析还处于概念在逐步清晰但需要不断发展的阶段,所以本书的重点是聚焦在其本质内容,即数据处理、算法及模型、“模型洞见到业务决策”的分析等内容。

第1章 数据科学家的成长之路

数据科学、人工智能、机器学习等领域的技术重合度是比较高的,但它们都是围绕“问题解决”→“分析”→“策略”→“领域知识”→“沟通”→“表达”→“探索”等问题来展开的,而这些问题都是人们在认识世界、解决问题时所涉及的方面。所以,下图想表达的含义也是如此:计算机的技术在迅猛发展,现在很多的技术都可以融合使用来解决复杂问题了;对于数据科学相关的这些技术,很多方面都是通用的。

Gartner很早就将数据分析能力分成了4种(如图13所示):

  • 描述性分析(DescriptiveAnalysis)是在回答“过去发生了什么”,是了解现状的有力手段;

  • 诊断分析(DiagnosticAnalysis)是寻找“为什么会是这样”的方法;

  • 预测分析(PredictiveAnalysis)是在回答“将来会是怎样”;

  • 规范分析(PrescriptiveAnalysis)则是说“基于现状、预测等结果,我如何选择一个较优的决策得到期望的结果”。

BusinessIntelligence的核心能力是解决描述分析诊断分析。人们常说的预测模型(包括传统的随机森林、GBT等,还包括深度学习的常见算法如CNN等)、聚类模型、关联分析等都属于预测分析范畴。利用凸优化、马尔可夫等方法从众多的决策选项中寻求最优决策,则属于PrescriptiveAnalysis的范畴,重点解决最优决策的问题。

所以“通过数据分析的手段发挥数据价值”的过程,没有业务输入是绝对行不通的。所以,笔者也认为数据科学家绝不是仅仅精通算法即可,还需要对业务一直保持热情,不断思考如何发挥数据分析的业务价值。我们需要从技能、效果、工作内容、工作方法等多个层面来扩展相关的能力,这才能发挥较大的价值。总之,如果数据科学家仅仅只是被动地考虑用何种算法满足业务部门所提出的要求的话,是远远不够的。

数据科学家应该具备的4种可信能力:

  • 在深刻了解算法原理、算法体系的基础上,掌握参数调优的技能是一个数据科学家的基本能力。不论是对初学者还是有一定经验的从业者来说,这都是一个需要不断学习和积累的基本任务。

  • 数据科学家除了要对模型性能指标熟稔于心外,还需要能够表达清楚模型真正的实际价值。所以,在第一步模型构建完成后,应用两套指标

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值