PPDAC模型

倦则止

已于 2023-05-06 12:54:42 修改

阅读量1k

点赞数 2

文章标签：数据分析分类

于 2023-04-26 16:40:54 首次发布

本文链接：https://blog.csdn.net/qq_66089313/article/details/130388783

版权

本文主要参考自 Geospatial Analysis 6th Edition 第3章.

Geospatial Analysis 6th Edition, 2021 update - de Smith, Goodchild, Longley and Colleagues (spatialanalysisonline.com)https://spatialanalysisonline.com/HTML/index.html

PPDAC是一个灵活、动态的方法，不是一套严格的程序或者形式，因此可以在一个项目的几个阶段中应用，并实时、灵活地调整。

一. 前言 – 空间分析是GIS分析中“特殊”的问题

二. P - 问题（Problem）：提出问题（Framing the question）

三. P - 计划（Plan）：制定方法（Formulating the approach

四. D - 数据（Data）：数据采集（Data acquisition

五. A - 分析（Analysis）：分析方法和工具（Analytical methods and tools

六. C - 结论（Conclusions）：公布结果（Delivering the results）

一. 前言 – 空间分析是GIS分析中“特殊”的问题。

就GIS分析中可能遇到的问题而言，有许多理由将空间问题视为“特殊”的问题。例如：

空间分析特别关注具有明确空间背景的问题，并且通常一个位置的数据并不独立于其他位置的数据。事实上，尤其在彼此靠近的地点进行测量分析时，这种关联（空间相关性）是常态。识别和分析这些模式通常是分析的目标，至少在调查的早期阶段是这样。

许多问题必须在时空背景下考虑，而不仅仅是在空间背景下考虑，一天/一周/一个月/一年的时间可能与获得对特定空间问题和过程的理解有很大的相关性，特别是那些具有环境性质和与基础设施使用和规则有关的问题。

统计学的理论基础依赖于一组假设和抽样程序，这些假设和程序通常比纯粹的观测数据更适用于实验数据集。空间分析所解决的问题很少属于真正的实验研究范畴。

通常，空间分析的目的不仅仅是识别模式，而且在可能的情况下要通过对过程的理解构建模型。这可能会涉及到新模型的开发，或者涉及到使用和/或进一步开发现有模型。

空间模式很少是由单个过程唯一决定的，因此空间分析通常是进一步研究过程和模型构建的开始，而很少是其本身的结束。当明确的空间因素，如距离或邻近，被认为是重要的，那么提出的问题必须考虑到：所考虑的问题是否直接或间接受到纯粹空间因素的影响？或者空间元素是一个或多个尚未充分建模或无法获得的解释变量的替代品？

空间数据集通常由第三方提供，如国家测绘机构、普查单位、第三方数据供应商和“开放”来源。此类材料提供的元数据可能会也可能不会提供有关信息的质量、准确性、一致性、完整性和来源的充分信息。在空间研究的许多领域中，这些要素是预先确定的，尽管它们通常会通过企业数据集(例如客户数据库、犯罪事件记录、医疗案例细节、自动跟踪事件数据)或实地研究(例如土壤样本或植物位置的地理参考收集、市场研究活动、水深测量、遥感数据、社交媒体来源等)加以增强。

这些因素中的每一个都有助于将空间分析与其他学科的分析区分开来，同时认识到方法和技术的相当相似和重叠。接下来，将在空间分析的背景下解释PPDAC模型的每个步骤。

二. P - 问题（Problem）：提出问题（Framing the question）

了解和确定要研究的问题往往是整个过程的重要组成部分——开始时对问题的清晰程度显然是决定分析将是成功还是失败的关键因素。将问题分解为关键组成部分（下面称其为组分，components），并将问题简化为关注其基本的、最重要的和相关的组分，常常是很有效的第一步。

很明显的是，包含大量关键组分的问题往往比涉及少量的组分的问题更复杂，花费更多的时间。但不那么明显的是需要检查这些关键组件之间的交互和依赖关系。此类交互和依赖关系的数量越多，要解决的问题就越复杂，并且随着数量的增加，复杂性往往呈指数增长。

对现有信息的分析，传统上被称为“案头研究”，是这一过程的重要组成部分，现在有了在线/基于互联网的资源的优势，这种分析要简单得多。从任何渠道（如客户、第三方、监管机构等）获取相关信息，是问题制定和规范的又一个基本方面。进行空间分析时还需要特别注意与一般分组数据，特别是空间数据相关的许多众所周知的问题，这些问题包括：

空间尺度因素（spatial scale factors）：将在哪个研究区域开展工作，改变这一点对一些或所有数据集有什么影响？相同的比例因素适用于所有感兴趣的数据吗？

统计尺度因素（statistical scale factors）：要分析和报告的数据在什么级别上进行分组？

空间布局因素（spatial arrangement factors）：研究区域的空间布局或分区的重新布局是否会对分析产生影响?

问题制定是否需要在可用的时间、预算和资源范围内提供类型、大小或质量标准的数据？

所寻求的关于空间分组数据的结论是否意味着分组（例如，在县一级，在农场一级）真正代表了组中的所有组成部分（例如，居住在县内的个人，农场内的田地）？如果是这样的话，分组区域必须完全或基本上是同质的，以避免所谓的生态谬误（ecological fallacy）——在只知道整体群体特征的情况下，将特征归因于群体成员。

是否根据采样个体的测量特征寻求有关空间分组数据的结论？如果是这样的话，样本必须完全或高度代表群体，以避免所谓的原子论谬误（atomistic fallacy）——基于潜在的不具代表性的成员样本将特征归因于群体的成员。

需要注意的是，提出问题并不是一次性完成的，一旦起草了初步问题规范，就可能根据初步调查、技术或商业考虑或不可预见的事件对其进行修改（图1，反馈回路）。然而，一旦问题制定完成并形成文件，并且所有相关方都就问题内容达成一致，就应尽可能只进行必要的更改（并形成文件）。地理信息系统在这方面发挥着特殊的作用，它提供了用于存储和可视化现有数据的工具（主要是与地图相关的），并在该过程的后续阶段之前促进了对问题各方面的讨论，这种作用可以在项目的各个阶段继续发挥，协助解释、分析和介绍结果。

图1. PPDAC模型 - 反馈回路

三. P - 计划（Plan）：制定方法（Formulating the approach）

在就问题定义达成一致后，下一阶段是制定一种方法，尽最大可能解决问题并获得符合预期的答案（结果）。尽管计划阶段是PPDAC模型中的第二个阶段，但PPDAC过程的迭代性质强调了定义并重新访问每个过程的必要性。因此，虽然在这个阶段将确定项目计划大纲，但在确定计划细节之前，必须考虑后续的每个阶段（数据、分析、结论）。对于性质更具实验性的项目，现阶段将仅制定计划的主要内容。对预计将使用已存在的数据集和分析工具的项目，计划阶段更像是整个PPDAC工作的一个集成部分。

计划阶段的输出通常被制定为详细的项目计划，包括任务、资源、时间尺度的分配、关键路径和活动的分析，以及数据、设备、软件工具、人力和服务等的估计成本。项目计划通常是在正式工具的帮助下制定的，这些工具可以是纸质的或软件辅助的。在许多情况下，这将涉及确定需要执行的所有主要任务或任务块，识别这些构建块之间的互连（及其顺序），然后检查如何将每个任务块分解为子元素。一旦包括了估计的时间和资源，这一过程就会转化为初步的工作计划，然后可以随着对项目的更好理解而进行修改和微调。某些情况下，这将是规划过程本身的一部分，其中正式的功能规范和/或试点项目构成总体计划的一部分。

与PPDAC过程的其他部分一样，PLAN阶段不是一个一次性的静态组成部分，而是通常包括对计划进行监测和重新评估的过程，以便可以以明确的方式监测和报告及时性、预算、资源和质量问题。

这一阶段需要考虑的问题有：

问题和项目的性质——是纯粹的调查，还是正式的研究活动；本质上是描述性的（对结构和关系的识别），还是更关心过程（在过程中可能需要更清楚地理解原因和影响，特别是如果要开发预测模型和/或预期将规定措施作为输出？
是否需要商业成本计算和/或成本效益分析？

是否需要特定的决策支持工具和程序？

所涉及的公众参与程度和公众意识（如果有的话）是多少？

与演习相关的具体作战需求和条件是什么？

可以在什么时间进行研究，是否有任何关键的（最终或中间）截止日期？

有哪些资金和其他资源可用？

该项目在技术上是否可行，存在什么可评估的失败风险，以及问题复杂性如何影响这一风险？

客户（商业、政府、学术研究）的期望是什么？

是否有必须使用的规范、标准、质量参数和/或程序（例如，遵守国家规范）？

该研究与其他关于相同或类似问题的研究有何关联？

需要哪些数据组件，以及如何获得这些组件（现有来源、收集的数据集）？

要研究的数据（单位）是从目标人群中选择的，还是样本在某种程度上是不同的，并随后应用于人群（在这种情况下，不仅必须考虑采样误差，还必须考虑所谓的研究误差）？

在决定设计方法和分析方法/工具时，至关重要的是确定可用的数据集，检查其质量、优势和劣势，并对子集或样本进行探索性工作，以明确实用和有效的方法。在这个阶段总是会有未知因素，但目标应该是尽早将这些因素降至最低，如有必要，通过整个过程进行工作，直到并包括根据样本、假设或模拟数据起草结果陈述。

通常要避免应用单一的分析技术或软件工具——除非对结果非常有信心，或者分析技术或方法本身是调查的主题，或者这种方法或工具集已经被批准在这种情况下使用。如果分析不局限于单一的方法，并且一系列的输出、可视化、技术和测试都表明了类似的结果，那么对研究结果的信心往往会大大提高。如果这些技术表明了不同的结果，则需要分析师通过重新检查设计、数据和/或所应用的分析技术和工具来解释差异。最终可能需要对原始问题定义进行审查。

在地理空间分析中，罕见事件、空间异常值、极值、异常群集等异常现象对研究的影响是极其重要的。探索性方法，比如绘制和检查病例以及绘制方框图，有助于确定这些观察结果是否有效和重要，或是否需要从研究集中删除。

通常认为一些分析技术比其他分析技术更稳健。这意味着它们不太容易受到数据极端或异常数据集的影响——例如，数据集的中值或中值通常被认为比平均值或平均值更稳健，因为它不受集合的特定值的影响。然而，空间平均值和中位数显示出不同于应用于单个列表属性的属性，在某些情况下，其他中心性度量（例如集合的中心特征）可能更合适。同样，对数据集的基本分布不做假设的统计测试往往比假设特定分布特征的统计测试更稳健，例如非参数测试与参数测试。然而，增强稳健性（robustness）可能会导致效率（power）损失，因为一些方法被描述为比其他方法更强大，即它们不太可能接受不正确的假设或拒绝正确的假设。

四. D - 数据（Data）：数据采集（Data acquisition）

空间分析有些不同寻常，因为关键数据集通常由第三方提供或从第三方获得，而不是作为研究的一部分产生。分析通常是对这些预先存在的空间数据集进行的，因此了解它们的质量和来源极其重要。这也意味着，在许多情况下，PPDAC过程的这一阶段涉及从可用数据集中选择一个或多个现有数据集。实际上，并非所有此类数据集都具有相同的质量、成本、许可安排、可用性、完整性、格式、及时性和细节。在大多数情况下都必须做出妥协，因为最重要的准则是满足我们的目的。如果可用的数据集无法满意地解决问题，即便这些是唯一需要处理的数据，也不应该用来解决这个问题，或者必须重新指定，以确保能够提供可接受的分析过程，从而产生有价值的结果。

与数据来源有关的一个主要问题是不同数据集在格式和编码方面的兼容性问题：在时间、地理和专题报道方面；在质量和完整性方面。通常，来自不同来源和/或时间的数据集不会精确匹配，因此解决不匹配和数据链接问题可能成为任何项目这一阶段的主要任务。作为这一过程的一部分，如何以及在哪里存储数据的问题需要尽早考虑，这是为了确保一致性和可检索性，也是为了方便分析和报告。

从定义上讲，几乎没有一个数据集是完美的。所有数据集都可能包含误差、缺失值、具有有限分辨率、包括以离散数学形式建模真实世界所导致的失真、包含测量误差和不确定性，并且可能表现出对位置和/或属性数据的有意或设计的调整（例如，出于隐私原因，作为聚合过程的一部分）。空间分析工具可能包含也可能不包含明确处理这些因素中一些更明显因素的设施。例如，存在用于处理以下问题的专用GIS工具：

边界定义和密度估计

提供缺失数据和屏蔽无效区域和/或数据项的编码方案

自动调整故障拓扑和匹配不佳的数据集，或不同分辨率和/或投影的数据集的建模过程

存在广泛的程序来处理分类中的困难

存在数据转换、加权、平滑和归一化设施，以便于不同数据类型和范围的数据集的比较和组合

现场数据缺乏连续性可以通过特征线和类似方法明确处理

存在一系列用于建模数据问题、生成误差边界、置信度包络和替代实现的技术

换句话说，现在GIS和相关软件包中存在许多设施，即使可用的数据集不太理想，也支持分析。值得强调的是，这里我们指的是分析阶段，而不是操作的数据清理阶段。对于许多空间数据，这种清理是由数据供应商进行的，因此超出了分析师的直接控制范围。当然，对于在项目中收集或获得的数据，或以原始形式提供的数据（例如原始的、未经处理的高光谱图像），数据清理成为整个分析过程中的一个要素。

对于许多问题，项目的重要组成部分涉及无形数据，例如与污染、风险或噪音水平有关的感知或担忧。以关键参与者接受的方式和适合进行分析的形式来量化这些成分是一个困难的过程。在这一领域，已经建立并广泛测试了一些正式方法（包括空间决策支持工具和成本效益分析工具）。这些工具几乎总是单独应用，然后用于生成或鉴定GIS软件的输入（例如权重）。

当数据作为研究活动的一部分生成时，还会出现另一个问题。这可能是将特定程序应用于一个或多个预先提供的数据集的结果，或者是模拟或随机化练习的结果。在后一种情况下，应对生成的数据集进行与源数据集相同的关键分析和检查，并应仔细考虑处理过程中生成的和放大的失真和误差。

五. A - 分析（Analysis）：分析方法和工具（Analytical methods and tools）

在达到分析阶段之前就应该对方法和工具进行初步选择。简单（Simplicity）和节俭（parsimony），使用最简单、最清晰的工具、模型和可视化形式，以及适合问题和目标应该是关键标准。其他因素包括：适当工具的可用性；时间和成本限制；需要提供有效性和稳健性检查，可以通过对一致性、敏感性和质量进行内部和/或外部检查；符合相关标准；多种技术的使用；以及使用独立的和/或附加的数据集或采样。

有大量的软件工具可用于执行空间分析：既用于简单的数据汇总，也用于探索性的空间数据分析（ESDA），这通常会形成分析的初始阶段；以及帮助特定技术或模型的开发和/或应用。空间模型构建和空间分析经常紧密耦合，其中一个的输出导致另一个的修改。微观建模技术尤其如此，如地质模拟，建模过程中经常会“出现”结果，并揭示意想不到的模式和行为，进而导致修改的想法和假设。

空间分析中一个反复出现的主题是模式（pattern）的概念。分析的目的通常被描述为识别和描述空间模式，从而试图理解和建模产生观察到的模式的过程。但是，“模式”这个词有着非常广泛的含义和解释。定义一组特定的观测是否构成空间模式的一种方法是尝试定义相反的观测，即什么样的物体排列不被认为构成模式。一般公认的“非模式”概念是指不向观察者提供信息的一组对象或一种安排。从实际的角度来看，没有信息的情况往往是当安排是真正随机的，或者是无法区分的随机安排。另一种定义可能是对象的均匀排列，偏离这种均匀性的情况被认为是模式。因此，空间模式是一个相对的概念，其中非模式的模型(例如完全空间随机性或CSR)是一个先决条件(参见图2，一阶和二阶过程)。

图2. 一阶和二阶过程

观测到的空间排列通常是间接或映射的数据，而不是直接观测数据——数据捕获和存储过程(例如点和线或遥感图像)已经对源数据集以及在一定程度上对观测到的排列预先确定的方面施加了模型。可视化方法和数据集的完整和/或采样范围也可能为空间模式的解释和调查施加先决条件。

因此，空间模式的识别与一些假设或先决条件密切相关：

（i）为了调查的目的，定义什么不是模式；

（ii）正在研究的数据集（事件/观测）的定义以及观测的空间（和时间）范围或尺度；（iii）观测、建模和记录的方式。

观察到的模式可能表明与一个或多个主要过程存在因果关系，但它们不能提供关于过程的安全推理手段。

例如，考虑昆虫幼虫分布的情况。想象一下，一只昆虫在距离同类其他昆虫产卵点至少200米的大区域产卵，然后飞走或死亡。同一物种的其他昆虫也差不多在同一时间产卵，每个昆虫都会随机产卵，其中大多数孵化形成幼虫，从原址向随机方向缓慢爬行100米。在此后不久的某个时间点，观察者对多个地点进行采样，并记录给定半径（例如10米）内所有幼虫的模式。然后对每个采样位点的这种模式进行单独映射和检查。观察者可能会发现，映射的模式看起来完全是随机的，或者可能在采样区域内具有幼虫密度的梯度。缩小到100米半径（即使用更大的区域进行采样），可能会观察到不同的模式，有一个不同的中心，并且在远离这一点的采样区域中分散的幼虫数量不断减少。然而，如果在10kmx10km的区域内对1公里的正方形进行观测，那么可能只有确定中心或产卵点才是可行的。在这个尺度上，这种模式可能看起来是有规律的，因为我们暗示每个卵子位点不是随机分布的，而是受到其他位点位置的影响。然而，同样可能的情况是，产卵地点实际上是随机的，但只有那些产卵在适当的规则分布的植被上的蛋才能存活下来，并继续产生活的幼虫。再次缩小到100kmx100km，观察者可能会发现，所有的产卵点都位于研究区域的特定子区域，因此看起来很密集，这种模式可能与昆虫之间的吸引力因素或不均匀的大规模植被覆盖或其他一些环境变量有关。

任何给定尺度上的映射模式可能不足以使分析员确定给定的观测集是随机的、均匀分布的、聚集的还是表现出一些特定的特征，例如径向分布，也不能以任何可靠性推断某些特定过程正在起作用。

另一方面，以上述方式，使用简单(随机)过程模型，可以相当直接地生成特定的空间模式。这些模式是所使用模型的特定实现，但是不能保证相同的模式不会由完全不同的过程生成。特定的映射数据集可以被视为一组(已知和未知)流程的特定结果，因此只是许多可能的结果或流程实现之一。在这种程度上，也许只是在这种程度上，这样的数据集可以被认为是样本。

因此，分析阶段可以看作是一个多部分的练习。它从审查收集的数据和对许多输入的操作开始，以产生一致和可用的数据。然后，它扩展到纯分析阶段，在这个阶段，研究数据是为了识别各种模式，然后帮助发展关于形式和过程的新想法和假设。这反过来可能导致在正式的构建-适合-批评循环中使用或开发一个或多个模型。最后，检查模型和分析的输出，并在必要时重新访问数据集和数据收集，在继续从项目产生输出并在结论阶段交付之前，回到PPDAC模型链。

六. C - 结论（Conclusions）：公布结果（Delivering the results）

PPDAC过程的最后阶段是根据所进行的分析得出结论，并将这些结论传达给其他人。请注意，调查结果的实施（例如，实际进行修建旁路、指定一个不适合居住的地区或实施疫苗接种计划）并不构成该模型过程的一部分，超出了其范围。

“结论阶段的目的是用问题的语言报告研究结果。简明的数字摘要和演示图形[表格、地图、地理可视化]应用于澄清讨论。应避免使用统计术语。此外，结论提供了一个机会来讨论计划、数据和分析的优势和劣势，特别是在可能出现的错误方面。”

——Mackay和Oldford（2000）

对于在空间分析中处理的许多问题，这个总结就足够了。对其他人来说，结论阶段将是额外工作的开始：重新访问问题并迭代整个过程或部分过程；一个新项目；执行提案；更广泛的咨询，如公众参与GIS（PPGIS，Communityviz）、Geoweb应用程序（如数字地球仪和街景）和参与式3D建模；和/或开发模型，帮助理解或解释观测结果，指导未来的数据收集，并预测分析中未包含的位置/时间的数据值。