来源:我得学城
本文约21000字,建议阅读10+分钟
这篇综述对大家建立无监督机器学习在城市研究中的总体认知非常有帮助。
最近梳理机器学习与深度学习相关论文,找到一篇综述文章,推荐给大家。
题目:Unsupervised machine learning in urban studies: A systematic review of applications
发表在Cities Volume 129, October 2022
亮点
- 深入系统地回顾了无监督学习在城市研究中的应用。
- 140篇论文揭示了无监督学习的广泛主题,涉及四个主要主题。
- 概念和常见技术简介。
- 进化和突出趋势的统计见解。
- 利用无监督学习分析城市的局限性和研究机会。
摘要
无监督学习(UL)在理解城市的复杂性方面具有悠久而成功的历史。作为监督学习的对应方法,它从内在的数据结构中发现模式,而无需人工标签,这被认为是产生真正的人工智能决策的关键。本文基于140篇论文对UL在城市研究中的使用进行了系统综述。首先,记录了每篇论文的主题、技术、应用、数据类型和评估方法,得出了进化和趋势的统计见解。聚类是最突出的方法,其次是主题建模。随着深度学习的强劲势头,UL方法的不断增长应用领域通过多源数据集成表示多尺度的复杂现实世界城市系统。随后,详细审查了UL在广泛的城市主题中的应用,这些主题由四个主要主题总结:城市化和区域研究、建筑环境、城市可持续性和城市动态。最后,综述了关于数据质量、主观解释和结果验证难度的常见限制,这些限制日益需要跨学科知识。在快速发展的UL技术和某些领域的监督学习占据主导地位的情况下,发现了研究机会。
关键词
地理人工智能(GeoAI);城市规划;地理信息科学;城市数据科学;k均值;潜在狄利克雷分配(Latent Dirichlet allocation)
获取全文 https://doi.org/10.1016/j.cities.2022.103925
长文预警,值得一读。
Jing Wang, Filip Biljecki | 作者
涛哥 | 编辑
1. 引言
城市是人类最复杂的创造之一,据信其物理形态和日常运作中隐藏着一些模式(Batty,2008;Bettencourt&West,2010)。随着城市数据的不断增加和机器学习技术的应用,使得从大规模数据集中自动识别模式成为了可能,这在为研究人员解开城市的复杂性,从而为城市干预提供信息和促进数据驱动的规划方面上获得了动力(Athey,2017)。例如,它们已被常规使用来监测城市变化(Schneider,2012),评估社会经济福祉(Jean等,2016)以及评估物理环境(Doersch等,2012;Ito&Biljecki,2021)。
这一部分写的比较经典。第一句话“城市是人类最复杂的创造之一,据信其物理形态和日常运作中隐藏着一些模式”,我个人觉得很巧妙。城市从静态与动态两方面看都有模式,而恰恰机器学习就是一种发现模式的工具。所以,第一句话就很巧妙的呼应了要讨论的“机器学习”。
随后,谈到了虽然“城市是人类最复杂的创造之一”,但产生的数据、机器学习技术可以帮助我们了解城市的复杂性。并谈到了应用的三个方向。
机器学习在城市研究中发挥了重要作用,用于各种目的,而在该领域中应用的技术和数据集的组合似乎是无穷无尽的。正如Grekousis(2019)和Ullah等人(2020)的综述所证明的那样,城市研究中大多数机器学习应用都依赖于监督技术。在这种方法中,工作流程依赖于标有已知值或类别的输入(训练)数据样本。这些数据样本被用来开发预测模型,以估计未知值并解释现象之间的关系。尽管监督方法已被证明对于广泛的应用和数据集非常有用,但它们并不试图回答所有的研究问题,同时也存在各种挑战,例如获取训练数据,因为真实世界的城市数据往往没有标签(Zheng等人,2014)。
承接第一段引出的“机器学习”,所以第二段就应该讨论,我们的研究领域内机器学习的应用特征。所以,论文提出了当前城市研究中的机器学习多依赖于监督技术。随后提到,监督方法虽好,但是仍然无法解决所有问题。
另一个广泛的机器学习类别,无监督学习(UL)从未标记的数据中推断出模式,释放了进一步理解城市研究中动态和大规模数据集的潜力。与监督学习(SL)相反,这些技术不关注结构化的语义关系,因此适用于应用于异构数据,例如文本、图像、音频和视频(Jain,2010)。与手动设置目标以预测结果的监督学习不同,无监督学习根据数据特征确定相关性(El Bouchefry&de Souza,2020),为城市研究提供了超越人类先验知识的新视角。在这方面,无监督机器学习被认为是真正人工智能的途径(Bengio等,2013),它基本上理解我们周围的世界,是AI生成设计和政策的关键。在跨学科GeoAI研究的盛行趋势下(Janowicz等,2020;Liu&Biljecki,2022),UL对于学习空间表示和空间数据基础设施的语义丰富至关重要(Huang等,2022;Jenkins等,2019)。
第三段,说明无监督学习的特点,以及无监督学习非常重要。按常规套路,第四段应当说明当前无监督学习的研究进展,以及研究不足,便于引出我们自己的研究。因为这是综述文章,所以作者列出无监督技术在城市研究中的应用后,提出尚未进行综合评估,以总结无监督学习在城市背景下的应用和趋势,这是我们在本文中试图填补的空白。所以,总结了先前的研究后,都需要讲讲我们的研究切入点是什么?这个切入点为什么好,以及我们的研究解决什么科学问题。要夸夸我们的研究。
尽管受监督学习技术的流行和应用所掩盖,但无监督学习方法在研究城市方面也有着悠久而成功的历史,本文将证实这一点。它们在从不断增长的城市数据集中发现模式和解决其复杂性方面起到了重要作用:多年来,诸如层次聚类分析(HCA)和主成分分析(PCA)等方法被认为在评估建筑环境质量(Bonaiuto等人,2003)和郊区研究(Mikelbank,2004)等各种调查中都是至关重要的。在过去的二十年中,无监督学习方法在更广泛的城市研究和相关领域中蓬勃发展,发布了很多文章,我们将在本综述中展示这一点。无监督学习技术支持了许多领域的研究,包括评估城市化进程(Cottineau等人,2017),研究出行模式(Sun和Axhausen,2016),理解可持续性和生态(Richards和Tuncer,2018),提取城市空间的语义含义(Gao等人,2017),城市感知(Capela和Ramirez-Marquez,2019),空间数据质量评估(Jacobs和Mitchell,2020)以及分析能源性能(Oh和Kim,2019)。这种无监督学习应用的扩散与城市数据的多样性和数量的增加以及无监督学习技术的快速发展和易用性(例如,易于访问的实现)有关。人工智能科学家预测这种趋势将继续发展,无监督学习将在未来变得更加重要(LeCun等人,2015)。然而,尽管无监督学习在城市研究中的重要性、意义和不断增加的应用,但尚未进行综合评估,以总结无监督学习在城市背景下的应用和趋势,这是我们在本文中试图填补的空白。与其他领域(如生物医学研究和建筑性能分析)不同,无监督学习的作用已经成为综述的研究对象(Miller等人,2018;Xu和Wunsch,2010)。
在本文中,我们系统地回顾了无监督学习在城市研究中的应用,重点关注主要技术的最新进展及其在广泛主题中的适用性。我们希望为希望利用UL进行城市研究的研究人员提供有用资源,同时将本次回顾作为尚未熟悉此类技术的研究人员的参考。我们将城市研究范围定义为城市化和区域研究、建筑环境、城市可持续性和城市动态(图1),这四个主题在过去几十年的城市研究或倡议中一直是重点研究方向。

图1. 城市研究主题可以分为四个主题组。本综述研究了无监督学习技术在提供跨越城市研究领域的洞见方面的应用。
接下来,是论文的组织与安排。
在第2节中,我们提供了无监督学习及其能力的高级概述。第3节描述了该系统评审的方法,而第4节则提供了对审核论文的统计见解。UL应用的广泛光谱在第5节中讨论,其中内容与四个城市研究小组的主题相一致。此外,在第6节中,我们反思了该研究领域的共同模式,无监督方法的限制,实施和未来机会。最后,第7节总结了本文。
又是一篇经典的Introduction,可以仿写。
2. 无监督学习背景
介绍无监督学习的目的、适用的任务及其方法,对理解无监督学习具有积极的作用。UL和SL之间的主要区别在于模型是否使用已知值作为监督信号。也就是说,监督学习使用标记数据来推断模式并训练模型来标记未见过的数据,而无监督学习仅使用未标记数据,并且为了发现模式,例如将相似特征分组。它经常用于标记成本高昂或不相关的应用中。
在这里,我们介绍了三个通用类别:聚类(clustering)、信号分解(signal decomposition)和神经网络(neural networks)。为了更好地从实践角度展示它们的能力,我们使用了一个城市数据集,其中包含多个代表性的城市数据类型作为案例研究。所选的数据集是关于新加坡Airbnb房源的列表,包括它们的属性(例如房源类型、卧室数量和价格)和评论(文本和数字评分)。该数据由Inside Airbnb提供,这是一个提供开放数据的项目,用于量化短期租赁对住房和社区住宅的影响,并经常用于研究(Gurran等,2018;Li&Biljecki,2019)。
2.1. 聚类(Clustering)
聚类是UL的最成熟的子类之一,它通过特征的相似性和差异性来识别原始的未标记数据集中的子组(Jain,2010)。有多种聚类技术,其中k-means(Hartigan&Wong,1979)是最突出的一种。在这种方法中,聚类是通过移动质心并将最接近给定质心的点分配到同一组中来完成的。在这种情况下,簇内的数据点共享共同的属性,而簇之间的差异是明显的。集群的数量由用户指定。
图2展示了数据集上的K均值聚类,数据点根据两个维度的信息分为四组。聚类算法的输入维度可以超过两个,事实上,我们的研究发现,城市研究中UL的最常见应用之一是通过多维特征聚类来发现类型(第5节)。图3给出了这种应用的例子——Airbnb数据点通过四个特征聚类,形成了分布在城市中的4种类型。
图2. 在新加坡Airbnb价格和评论分数上进行k-means聚类,结果分为4组。
图3. 在新加坡Airbnb的特征(容量,卧室数量,价格和评论分数)上进行k-means聚类,结果分为4种类型。
这篇综述涵盖了更多的聚类技术,包括层次聚类分析(HCA),它揭示了聚类的层次结构;具有噪声的基于密度的空间聚类应用(DBSCAN)(Ester等,1996),它能够感知位置并适用于空间数据;谱聚类(Ng等,2001);亲和力传播(AP)(Frey&Dueck,2007)和高斯混合模型(GMM)(Zivkovic,2004)。
2.2. 信号分解(Decomposing signals)
此类别总结了从复合信号(例如图像、文本、数值)中提取特征分量的技术,其结果是将高维数据映射到低维空间并保留内部结构(降低维数)(Blei等人,2003; Lever等人,2017)。其中一种代表性技术是主成分分析(PCA)(Wold等人,1987),它通过将输入变量线性转换为“主成分”,即由输入变量组成的新数据表示,从而压缩数据集。
通过主成分分析(PCA),我们能够在二维空间中可视化Airbnb类型的四维特征(图4)。这四个特征被“压缩”并由两个主成分代表,彩色轴表示它们的方向。在实践中,PCA通常在聚类之前进行,以简化多维数据的解释。它还能够有效地识别最显著的特征。
图4. 对短租数据集应用PCA。将4维特征降至2维。
另一种流行的技术是潜在狄利克雷分配(LDA)(Blei等人,2003),它通过主题生成离散数据(例如文本语料库)的明确表示,即加权观察列表。它经常用于主题建模任务,例如发现在社交网络上讨论的潜在主题。它有助于从志愿数据(例如社区评论)中理解人们对环境的感知(Hu等人,2019)。
我们在图5中展示了对租赁清单评论的主题建模结果——发现了十个主要主题,每个主题都包含一系列加权相关术语。在所选主题中,最具特色的词包括“地方”、“MRT”(地铁系统)、“方便”,这表明某些主题对客人非常重要。为了让LDA结果对非专业人士有意义,通常需要人工解释。
图5. 通过LDA发现10个Airbnb评论主题。红色突出显示所选主题及其相应的词频。
信号分解技术的应用与聚类相比更为多样化,例如,在异常检测、特征提取、主题建模和变化检测任务中被广泛采用。其他相关技术包括潜在语义分析(LSA)(Landauer等人,1998)和t-分布随机邻域嵌入(t-SNE)(van der Maaten&Hinton,2008)。
2.3 无监督神经网络(Unsupervised neural networks)
无监督神经网络是无监督学习技术的一个活跃研究领域,由于深度学习的进展而迅速发展。人工神经网络由三种类型的节点层组成——输入层、多个隐藏层和输出层。通过信号在层之间的流动和相互作用,它具有建模现实世界问题常见的复杂非线性关系的能力(Schmidhuber,2015)。
自组织映射(SOM)(Kohonen,1990)是一种经典的浅层神经网络,它将输入层中的神经元和输出神经元关联起来,将许多观察结果总结为二维网格图(图6)。训练过程类似于聚类,即神经元相互竞争以围绕最近的质心神经元分组。与k均值聚类相比,SOM不需要预设聚类数,神经元会倾向于学习数据结构中学习到的自然聚类。因此,它适用于学习和可视化具有大变化的数据集中的模式。
图6. 自组织映射(SOM)的架构。
近年来,具有更多隐藏层的深度神经网络正在蓬勃发展。代表性模型包括自编码器(AE)(Hinton&Salakhutdinov,2006)和生成对抗网络(GAN)(Goodfellow等,2014)。
AE利用神经网络学习输入数据的表示,同时忽略无关的噪声(编码),并通过所学到的特征进行数据重构(解码)(图7)。通过将重构后的数据与输入数据进行比较,可以评估模型表现。在编码-解码过程中,它可以用最小的重构误差压缩数据,检测最显著的特征和异常,并生成类似于输入数据的新数据,即进行预测。
图7. 自编码器(AE)的架构。
GAN使用鉴别器为来自随机生成器的微调结果产生自我监督信号,因此能够产生与原始输入一样逼真的新数据输出(图8)。它催化了诸如图像到图像翻译、视频预测、3D物体生成等应用的发展(Wu&Biljecki,2022)。受限玻尔兹曼机(RBM)(Hinton等,2006)也包含在本综述中。
图8. 生成对抗网络(GAN)的架构。
3. 方法论
3.1. 概述
为了鉴定在城市研究中采用UL的论文,我们遵循系统综述的PRISMA协议(Moher等人,2009),并按照该领域最近综述的做法(Biljecki&Ito,2021;Zhao等人,2021)进行。首先,我们使用可重复的语法在文献数据库中进行系统搜索,获取了一个初始文献池,共计668篇论文。根据几个标准进行手动筛选,筛选出了140篇论文进行综述。以下子章节详细描述了这两个步骤的细节。
在学术研究领域,"PRISMA protocol" 是指 PRISMA(Preferred Reporting Items for Systematic Reviews and Meta-Analyses)协议, 是一种用于系统性文献综述和元数据分析的指导性报告规范。
PRISMA 协议旨在提供一个结构化的框架,以确保系统综述和元数据分析的透明度、可重复性和方法学质量。该协议包含了规范和指南,用于进行系统性文献搜索、筛选研究文章、提取数据、评估偏倚风险和进行数据分析等步骤。
使用 PRISMA 协议有助于研究者在进行系统性综述和元数据分析时遵循一致的方法和报告标准,从而提高研究的可信度和可比性。PRISMA 协议提供了一个详细的检查清单,包括项目标题、目标、搜索策略、筛选标准、数据提取、偏倚风险评估等方面的要求,以确保全面和准确地呈现研究结果。值得注意的是,PRISMA 协议并不是一种具体的数据通信或协议技术,而是用于指导和规范学术研究的方法学工具。
进一步了解,移步:
http://prisma-statement.org/Protocols/
https://systematicreviewsjournal.biomedcentral.com/articles/10.1186/s13643-021-01626-4
3.2. 搜索方法
我们在Web of Science(WOS)数据库中进行了相关论文的搜索。搜索语法由两组关键词组成。第一组关键词集中在与城市和城市背景相关的论文上,而第二组旨在勾画涉及无监督学习的出版物。它们的交集表示我们评论的重点。
对于第一组,我们设置了表达式“urban* OR city”。星号将搜索扩展到包括关键搜索词的变体,涵盖诸如城市化和城市主义等词语。由于这些术语经常出现在其他领域的文章中,这些领域不是本综述的重点(例如计算机科学和医学),因此必须缩小搜索范围。通过限制WOS中以下学科类别的搜索结果来获得更专注的结果:环境研究,地理物理学,绿色可持续科学技术,地理学,土木工程,城市研究和区域城市规划。
第二组关键词旨在识别使用无监督学习方法的文章。首先,我们遵循了其他领域 UL 综述(Li、Shepperd 和 Guo,2020)相同的方法,使用“unsupervised OR unlabeled”的关键词,但结果表明,几乎所有文章都属于遥感领域,除了最近两年发表的少量文章。这是一个有趣的现象:术语“unsupervised”主导着遥感领域,但在城市研究的其他子领域中通常找不到它的明确使用。为了确保文献池的多样性,我们在谷歌学术中重新运行了一个探索性搜索,并发现相关文章通常在摘要或关键词中指定了所使用的技术(例如,PCA、k-means 聚类),这些技术属于无监督方法的大伞下。因此,我们在WOS的搜索语法中添加了第2节列出的 UL 技术。请注意,由于太多的论文应用 PCA 进行降维而没有产生洞察力,本综述将重点关注其用于特征提取的应用。有关 PCA 和空间数据的更全面综述,请参阅 Demšar 等人(2013)的论文。
上面提到,结果表明,几乎所有文章都属于遥感领域,我也发现了这个现象。近期梳理machine learning OR deep learning论文,遥感领域的论文异常多。我想,遥感关注图像,而深度学习这些年又比较火,所以深度学习的应用好发论文吧。
与之前发表的领域评论一样(Ibrahim等人,2020; Ma等人,2019),我们仅包括英文同行评议论文并发表在学术期刊上,最终收集了668篇论文,时间跨度为1996年至2021年(截至2021年10月19日执行最后一次搜索)。完整的搜索语法附在附录A中。
3.3. 纳入标准
在获取了初始文献池之后,我们开始手动筛选那些与我们的综述相关的文献:我们筛选了文章的标题、摘要和关键词,以评估它们与我们的背景的相关性。我们制定了以下标准,一个论文必须符合这些标准才能被认为是与本篇综述相关的。
该研究在城市或城市边缘地区进行。
这是一篇城市研究论文,代表或预测城市系统中的模式。为了澄清我们关注领域的模糊含义并改善模糊的边界,我们总结了城市分析和实践中四个基本和趋势性的主题群。包括的论文应属于以下主题之一:
(a) 城市化和区域研究:由宏观经济、社会和政治力量塑造的城市的分歧和变化(Brenner,2013)。它可以是一个物理过程(如土地利用变化),也可以反映在社会经济福祉中。
(b) 建筑环境:人类日常生活、工作和娱乐的人造物理空间(Roof&Oleru,2008)。典型的例子是建筑物、街道和公共空间。
(c) 城市可持续性:包括生物多样性、生态系统服务、空气污染和热岛效应等研究主题的集合(Verma&Raghubanshi,2018)。这些见解有助于城市以可持续和有弹性的方式发展。
(d) 城市动态:监测和预测人们活动、交通流量和公共设施需求的模式(高,2015),从而实现更智能的城市管理或商业决策。
我们的评论(第5节)提供了每个主题中UL如何应用的具体示例。
本文使用了一种或多种无监督方法。这一步是至关重要的,因为我们遇到了许多论文,其中包含与UL技术相同的缩写,但含义不同。
无监督学习是主要的分析方法。这个标准是必要的,以便只保留 UL 技术占主导地位的论文。例如,仅将 UL 用于数据预处理或比较研究等次要或边缘任务的论文不被认为符合此标准,因此被排除在考虑之外。
该研究所提出的方法在真实世界的数据集上进行了测试,而不仅仅是纯理论,为研究人员提供了实质性的见解,为实践者提供了启示。
在筛选了初步的论文池后,我们挑选出了满足上述标准的140篇论文。
4. 结果和概述
本次综述所选论文关注的是多种城市挑战,并采用了不同的方法、数据集和工具,验证了无监督学习在城市研究中的普及(图9)。本节描述了综述的论文的一般趋势和见解,基于审阅期间提取的信息(表1)。图10显示了无监督学习在城市研究中的时间演化以及每个研究类别的份额变化。最近,发表的论文数量明显增加,从2016年增加了五倍到2021年。随着相关论文的迅速增加,总结之前的研究并跟进最新进展是必要和及时的。
图9. 通过关键词的对应分析,对所审查的论文进行的概念结构。顺便说一下,无监督学习方法在文献计量学中非常有用,例如对大量论文进行聚类和建立类别。该图由Aria和Cuccurullo(2017)开发的R包创建。
表格1.信息提取示例。


图10. 相关出版物的激增及每个类别的份额。这些论文于2021年10月收集。
关于不同类别的占比,它们之间存在显著差异——与城市可持续性相关的论文数量仅为城市动态的两倍。值得注意的是,尽管城市动态的应用起步较晚,但在最近的五年中引起了相当大的关注。此外,建筑环境一直是一个感兴趣的领域,例如,Owen等人(2006)在早期的自动土地覆盖分类研究中使用聚类算法。
在图11中,我们根据应用类型对年度出版物进行了分类。应用的分类是通过总结多个相关研究中的常见类型(Jing&Tian,2019; Miller等,2018; Usama等,2019),并根据文献池中的内容进行微调确定的。请注意,由于底层技术的微妙之处,这八种类型不是互斥的(例如聚类的主题建模)。但是,我们认为这种分类的详细程度对于概述UL应用的基本目标是必要的。结果显示,依赖于聚类的研究呈稳步增长,这与论文数量的总体增长有关。主题建模是一个可观察到的新兴主题,近三年发表的论文比例相当大。这种增长可能与易于获取的地理标记文本数据(如社交媒体帖子和兴趣点(POI)数据)的增加有关(Huang&Li,2019; Wang&Taylor,2019)。值得注意的是,有一个新的子集的论文正在检查预测应用程序,几乎都集中在交通预测上(Chen等,2021; Ranjan等,2021; Zhang等,2021),只有一个例外,通过生成对抗网络(GAN)模拟城市增长和住房分散(Ibrahim等,2021)。
图11. 按应用类型划分的出版物年度流行度。
从数据结构出发,无监督学习的分析结果与输入数据密切相关。数据类型和方法的众多排列组合为该主题的研究创造了非常多样化的景象。在图12中,我们提取了三个核心特征来描述一项研究:类别、应用和所使用的数据类型,揭示了特征段之间的共享和关系。第一个关键观察结果是,聚类是所有类别的论文中最常见的实践,特别是在城市化和可持续性研究中占总数的80%以上。第二,对于城市动态和建筑环境,其他应用程序的份额,如主题建模、特征提取和预测,相对较高。由于它们是新兴应用,相应的研究类别有望获得更强的创新动力。第三个观察结果来自数据类型。无监督学习可以成功地应用于各种城市数据(表2),并没有一种数据类型是特别流行的。一部分研究依赖于多源数据。由于广泛的适用性,研究人员使用无监督方法作为连接多个数据集的桥梁,这在缓解对单个数据源依赖所引起的偏见的同时,为分析过程引入了更多的视角(Cai等人,2019; Devkota等人,2019; Vizzari&Sigura,2015)。
图12. 出版物段落之间的共享和关系。在本综述中,“空间”数据类型代表静态地理对象,例如建筑物轮廓,而“时空”表示记录人类或交通运动的数据类型,例如GPS轨迹。有关每种数据类型的详细含义,请参见表2。
表2. 我们在综述中发现的城市数据来源,以及示例研究。
技术方面也很重要。对于每个研究,我们已经注意到了特定的技术和编程语言,大约三分之一的作者透露了这样的信息。图13说明了研究结果:前3个频繁技术-k-means、自组织映射和DBSCAN-基本上都用于聚类数据,只有少数例外使用SOM在提取时空特征(Liu,Zhang和Long,2019; Oldoni等,2015; Sohn,2013)。下一个最常见的技术是潜在狄利克雷分配,主要用于主题建模。实际上,大多数技术只有一种类型的应用,除了自动编码器具有多种用途。
图13. 无监督学习技术和使用的编程语言的分类。
在技术方面,主流编程语言都支持无监督方法,包括R、Python、Java、Matlab等,通常通过众所周知和流行的机器学习包实现这些功能。它们大多是开源的,在该领域中似乎没有占主导地位的语言。其中,我们介绍最常见的一种——R语言。基础的R语言(不使用包)支持主成分分析和k均值聚类,正如第3节中的示例所示。其他技术是通过包实现的,例如kohonen包支持SOM训练和可视化。然而,支持无监督学习的R包的功能似乎有限,其中超过三分之二处理数值相关的聚类问题,而缺少像图像和时空数据这样的输入数据类型。相比之下,Python支持广泛的机器学习库,并可以以多种方式应用。例如,有一个集成的机器学习包,支持各种监督和无监督算法——scikit-learn(Pedregosa等人,2011年),以及gensim包,支持第3节中展示的评论主题建模示例。此外,由于与深度学习环境的集成,Python能够处理大量数据的高级特征。例如,Singh和Mohan(2019年)训练堆叠式自编码器生成道路交通视频的深度表示,Comber等人(2020年)从建筑立面图像中提取视觉特征(例如商店数量),借助自编码器捕捉重构图像所需的最显著特征。
最后,我们在附录B中提供了一份综合评审论文的清单。附录中的表格包含支持分析的提取信息,并且论文按数据类型分类组织。
5. 回顾
5.1. 城市可持续性
考虑到评估城市可持续性在很大程度上依赖于量化环境或地理指标(Keirstead&Leach,2008),在此领域中无监督学习的常见用例是根据这些指标的特征对地理单元(即单元格和行政区域)进行聚类。相关的研究领域是生态系统服务(ecosystem services, ESs),这意味着人类直接或间接从生态系统中获得的好处(例如食品生产,营养素保留)(Lyu等,2019)。在这个领域的研究结果是ES捆绑包 - 基于来自多个来源的数据集(包括土地利用,气候,人口普查和地理数据)的生态系统服务的联合空间分布,其中无监督学习确定并聚类具有共同高维特征的地理单元(Karimi等人,2021; Lyu等人,2019; Yang等人,2019)。ES捆绑包作为可视化其空间分布的理想单元,研究时间变化(Yang等人,2019),分析空间权衡和协同作用(Karimi等人,2021)以及确定有效的环境保护策略(Lyu等人,2019)。除了识别环境度量中的相似模式外,Richards和Tuncer(2018)尝试使用无监督学习评估文化价值,这些文化价值取决于社交媒体照片。首先,使用计算机视觉(在Google Cloud Vision中实现)的步骤从自然照片中生成特定的对象标签,其次,分层聚类将非结构化标签总结为7个不同的组。据估计,这种无监督的工作流程可以节省170小时的人工主题分类工作。
此外,具有独特环境特征的群集可能作为探索性多元分析的基础,研究人类活动与环境结果之间的关系(Ferrara等人,2017年; Schmiedel等人,2015年)。例如,将意大利市政府按森林覆盖指标划分为同质分区后,Ferrara等人(2017年)总结了群集的社会指标,并通过判别分析,指出农业、收入、教育和劳动力市场是森林覆盖的关键预测因子。尽管这种方法的局限性是显而易见的,即未量化人类对环境的影响程度,但结果可以简化未来统计学习任务中的指标选择。
随着城市可持续发展成为全球城市共同的目标,许多研究都在集中评估和比较城市的可持续发展。传统的可持续性评估选择和加权过程可能会受到人类偏见的影响 (Paulvannan Kanmani等人,2020),因此,研究人员使用无监督学习自动提取指示可持续性的关键因素 (Akande等人,2019; Martins等人,2021)。此外,无监督学习在比较城市或国家的环境表现方面也很实用 (Amaral等人,2021; Lu等人,2015; Paulvannan Kanmani等人,2020)。例如,Paulvannan Kanmani等人 (2020) 应用 SOM 技术将180个国家的10个环境指标映射和可视化到二维输出空间中,同时保留它们的相对距离,结果形成了一张节点地图,反映了各个国家的可持续发展相对位置。
此外,在时间方面,无监督学习在捕捉环境动态和自然灾害方面已被证明具有价值,因为它简单且能够增强变化信息。一个特定的用例是监测城市森林和植被状况,这可以通过对多时相卫星数据派生的植被指数进行无监督分类来实现(Krtalic等,2021)。另一个研究领域与洪水等灾害有关。Peng等人(2021)提出了一个大规模无监督城市洪水映射框架,其中自编码器学习预洪和洪后补丁的多维特征进行比较,而Xu等人(2018)通过聚类洪水相关特征生成了五个风险级别的城市洪水图。由于能够节省人工标注训练数据的时间,因此这些方法的结果可以实时用于通知紧急人道主义援助和灾难救援(Peng等人,2021)。有关环境变化的进一步研究,请参见(Tessler等,2016)和(Kropp,1998)。
最后,有许多论文聚焦于城市热环境(Kwon等人,2021;Xu等人,2020;Zawadzka等人,2021),这些应用类型也属于聚类多源数据,如温度、湿度、建筑密度和地面表面。其中,我们特别介绍Kwon等人(2021)的工作,该工作通过k均值聚类发现了城市中不利和有利的热区,并生成了分区图,可以为相关的可持续能源政策提供信息。
5.2. 城市化和区域研究
城市化过程可以直接反映在土地利用变化上(例如耕地转变为建成区)。由于很少有城市具有长期详细的土地利用登记册,因此该领域的研究人员通常基于卫星图像开发自己的土地利用和覆盖分类(Naikoo等,2020;Owen等,2006;Xu等,2012;Ye&Chen,2015)。虽然有监督的分类器广泛探索了这个问题,但无监督学习提供了一种补充途径,特别是在没有合适的参考数据(例如当前的土地利用地图)的常见情况下非常有用(Ye&Chen,2015)。此外,在不需要先前知识的情况下手动设置数字参考的情况下,无监督方法的经济和专业障碍较低(Johnson&Xie,2011)。在执行此类任务时,研究人员使用无监督学习从卫星图像中提取最具代表性的光谱信息(Xu等,2012),通过光谱值的内部同质性和外部异质性来聚类像素或网格(Naikoo等,2020;Qi等,2019)。由于这个研究领域与遥感密切相关,因此技术探索以提高模型性能为活跃,包括利用亮度和饱和度信息(Ye&Chen,2015)以及应用LDA增强多时相图像场景的语义相关性(Du等,2018)。
人口和社会经济转变也是城市化议题的重要研究方向,机器学习在其中扮演了重要的角色。许多研究集中于社区变化,主要依赖于过去几十年收集的人口普查和调查数据,并使用聚类方法对变化向量进行总结(例如,新贵化、人口减少等)(Delmelle,2017年;Dias & Silver,2021年;Li & Xie,2018年;Liu, Deng, et al.,2019年;Serra等人,2014年;Yuan等人,2021年)。例如,在对美国50个大都市区进行全国性研究时,Delmelle(2017)引入了SOM,通过在二维输出空间上对类似社区进行总结,将庞大且高维的人口普查数据简化为不同社区变化轨迹的明显群体。与社会研究中常用的基于阈值的方法相比,Liu、Deng等人(2019)认为无监督学习避免了专断,但结果的解释不太直观,因为没有遵循理论指导方针的预设规则。
该领域的另一个话题是区域类型学研究,旨在展示城市和郊区发展状态的差异。由于无监督学习对各种数据结构的多功能适用性,区域类型学已从多个角度进行了研究,包括社会经济实力(Arribas-Bel等,2013; Baum等,2006)、发展条件(Cabrera-Barona等,2020; Rahman等,2019)、城市形态(Lemoine-Rodriguez等,2020)和混合特征(Mikelbank,2004; Fiaschetti等,2021)。我们强调Arribas-Bel等人(2013)的工作,该工作在六边形网格坐标平面上可视化了35个全球城市的相对社会经济位置和移动,并建议使用这种无监督映射技术作为知情决策的支持工具箱。
考虑到城市中心、城市和自然或农村地区之间模糊的空间边界,研究人员也采用无监督学习来自动化分割不同的城市化地区,最终生成城市空间地图,为规划师和政策制定者展示未来发展的潜在区域。常见的方法是通过聚类城市-农村诊断特征,如夜间光强度和波动(Feng等,2020),土地利用(Vizzari和Sigura,2015),旅行模式(Ozus等,2012)和多元统计(Arribas-Bel和Schmidt,2013)。要比较聚类方法之间的差异,可以参考Fusco和Perez(2019)的工作。还有一种特殊情况不依赖于聚类:Kit等人(2012)通过PCA和线检测算法在卫星图像中检测到空洞来描述城市贫民窟。
最后,尽管相关研究的数量较少,我们希望强调无监督学习(Feng&Liu,2013;Ibrahim等,2021)带来了城市增长预测的进展。在卡塔尔的一项实验中,Ibrahim等人(2021)使用GAN模拟城市增长和住房分散,结果与历史地图非常相似。据Albert等人(2018)称,GAN可以仅由卫星图像组成的相对较小的训练数据集准确预测未来的城市增长。这意味着,在无监督学习的帮助下,发展中国家可以使用实际模拟城市土地利用置换,而无需进行其他模拟方法中的空间变量的昂贵编制。
5.3. 建筑环境
由于无监督学习能够识别和分离隐藏在大型数据收集方法中的区分性信息,从自下而上的角度研究城市空间的实际使用情况(作为自上而下的土地利用计划的对应部分)(Papadakis等人,2019年)成为可能,通过学习用户生成的数据模式(Gao等人,2017年)。这种应用可以概括为城市功能研究。一些研究采用先通过旅行轨迹和通话记录找到活动的空间聚集,然后根据行为模式的先前知识推断城市功能,例如,工作日高强度和规律性活动指的是办公区域(Rios和Munoz,2017年)(Tao等人,2019年;Wang等人,2021年)。然而,研究人员指出,这种方法无法捕捉城市空间的真实语义(Tao等人,2019年)。
一种更流行的方法是利用POI数据,既反映活动的集中程度,又具有嵌入式语义信息(Gao等人,2017;Hu等人,2020;Jing等人,2021;Miao等人,2021;Papadakis等人,2019;Pavlis等人,2018;Yu等人,2020;Yuan等人,2020;Zhang等人,2018)。在列表中,我们展示了Gao等人(2017)的工作,该工作开发了一个统计框架,可以基于POI类型的共现模式帮助发现语义上有意义的主题和功能区域。功能区域通过语义含义的相似性进行分组,形成具有明显主题特征的凸多边形地图。本研究中的特色技术是LDA,它将语义信息映射到向量空间中,因此可以计算和比较单词之间的数字距离,即衡量地点的语义相似性。它是识别城市功能最强大的技术之一,并已在其他地理空间中复制和适应,有关相关研究请参见(Hu等人,2020;Papadakis等人,2019;Zhong等人,2018)。
城市功能与另一个研究领域——城市结构(崔等人,2019年;金,2020年;孙等人,2016年;钟等人,2018年)纠缠在一起,可以被看作是城市功能空间总结的进一步步骤,揭示了集中模式,例如,从聚合推特生成伦敦功能区后,钟等人(2018年)通过分层聚类分析空间结构,得出多层次的结构图,可能支持经济集群的战略规划。
非监督学习在帮助研究人员理解我们的物理环境方面也非常有用,通过自动提取或重建编码在图像中的最显著的视觉特征(如街景图像(SVI))。这个主题下的研究目的非常多样化,包括研究影响空间质量的视觉特征(Comber等人,2020;Wu等人,2020),构建城市外观库(Nguyen等人,2020;Taecharungroj&Mathayomchan,2020)以及基于学习到的特征生成设计干预(Wijnands等人,2019)。传统上,这样的任务非常艰巨,主要依靠实地调查和手动区分各种视觉线索。监督学习能够注释大型图像集合的属性。有使用监督图像标记服务(如Google Cloud Vision(Taecharungroj&Mathayomchan,2020)和SegNet(Wu等人,2020))的论文,结合无监督方法减少照片标签的维数,并找到具有共同特征(主题)的图像组。然而,在需要比一般标签更具体信息的研究中,监督学习很难在速度和准确性之间取得平衡(Comber等人,2020)。随着深度无监督模型的进步,可以直接从图像中捕获视觉表示,而不需要费力的手动标签。在这里,我们强调两个启用算法:自动编码器,它学习重建输入建筑立面图像的最有用的像素组特征(例如标志、设计风格和颜色)(Comber等人,2020),以及GAN,它从一个城市区域捕获SVI的关键特征(如地面纹理、树木密度),并将样式转换到另一个城市区域(Wijnands等人,2019)。
除了城市特征之外,我们观察到一系列的论文专注于检测特定的城市物体。这种做法的一个核心思想是找到重复出现的物体,例如在地理标记的照片中频繁出现的地标(Samany,2019)和在房屋广告中反复提到的景观设施(Su等,2021)。另一种方法基于LiDAR点云数据,利用原始3D点的内在特征(如接近性、连通性、对称性),将点转换成一组具有相似特征的集群(Aljumaily等,2017; Xue等,2020)。每个集群代表特定的城市物体,例如汽车、建筑和地面表面,并且分类的性能被证明非常准确。简而言之,无监督学习提供了可伸缩和高效的框架,用于绘制可以用于建立数字城市孪生的真实世界物体(Aljumaily等,2017; Xue等,2020)。
值得突出的另一个领域是城市形态学研究。一般来说,城市形态可以通过建筑物、地块和街道的形状生成一系列数值度量来表示(Biljecki&Chow,2022)。由于形态数据集具有高维性质(例如,从建筑物占地面积派生的形态度量包括密度、大小、形状等等(Jochem等,2021)),无监督学习比任何其他方法更能发现潜在的共同几何模式并产生城市形态类型学(Abarca-Alvarez等,2019;Bobkova等,2021;Jochem等,2021;Oh&Kim,2019)。具体而言,在对五个欧洲城市的研究中,Bobkova等人(2021)通过聚类地块构型属性确定了七种地块类型,从而实现了形态学研究的扩大和区域内外的大量比较。这类研究的结果也有效地简化了下游城市分析任务。例如,Oh和Kim(2019)为能源性能模拟开发了13种建筑模块类型,提供建筑几何特征参考集以供城市能源规划和设计。请注意,在用形态度量表示类型时,研究人员通常选择最接近聚类中心的值(Bobkova等,2021;Oh&Kim,2019)。
除了上述使用情况外,其余依赖无监督学习的建筑环境研究相当多样化,包括提取环境质量或宜居评估的指标(Bo等,2019; Bonaiuto等,2003; Tu和Lin,2008),通过时空特征建立交通导向开发站的分类学(Li,Han等,2019年; Liu,Singleton和Arribas-Bel,2020年; Sohn,2013年),从城市环境中创建声音特征的声学摘要(Oldoni等,2015年),并分析各种土地类型下噪音的主要来源(Chew和Wu,2016年)。
5.4. 城市动态
城市动态研究领域的兴起与记录个人活动的数据集的数量和可访问性的增加有关,这些数据集以动态的速度进行记录,例如追踪出行模式的智能卡数据(Manley等人,2018),暗示移动或社交互动的通话记录和移动数据(Sagl等人,2014),以及反映城市空间个人情感的社交媒体帖子和照片(Olson等人,2021)。鉴于这些数据集的复杂性和多样性,从中检索关键信息变得具有挑战性(Sun&Axhausen,2016)。这个问题加剧了对城市复杂个体行为缺乏先前知识的情况,使得监督学习成为分析的不太有利的选择。因此,不足为奇的是,大量论文采用无监督学习从高维时空数据中发现空间、时间和个体之间的交互,即研究城市内的集体行为模式(Bi&Ye,2021; Chen等人,2019; Kim,2020b; Li,Zhu和Guo,2019; Manley等人,2018; Ouyang等人,2018; Pieroni等人,2021; Sagl等人,2014; Sun&Axhausen,2016; Xing等人,2020; Yu等人,2021; Yu&He,2017; Yue等人,2018)。
Sun和Axhausen(2016)应用张量分解方法,通过简单的潜在结构从智能卡数据中提取了1400万个公共交通旅行的复杂依赖和交互。分解结果描绘了几个主要的旅行模式及其相应的特征,例如高峰时段、起点-终点和年龄组,揭示了新加坡的潜在时空结构。研究的洞见可以为从业者提供车队管理和基础设施规划的参考。除张量分解外,聚类技术在处理旅行数据方面也很直观。例如,DBSCAN基于个体旅行行为的时间和位置相似性捕获智能卡数据中的聚类。与k均值聚类相比,DBSCAN考虑点密度,因此能够识别高密度时间事件,这表明了定期行为(Manley等,2018)。有关使用无监督学习发现出行模式的相关研究,请参见Ouyang等人(2018);Chen等人(2019);Xing等人(2020);Pieroni等人(2021)和Yu等人(2021)的工作。
以手机数据为代表的人类活动是行为模式研究的另一个方向。Sagl等人(2014)通过SOM表征集体人类活动的强度和相似性的变化,Liu,Zhang和Long(2019)进一步在空间上聚合具有相似特征的人类活动,并确定了几个城市活力区域。事实上,通过细胞活动测量的行人流量是城市活力的流行指标,无监督方法在释放其潜在的时空特征方面具有实用价值,相关研究请参见(Kim,2020b)和(Guo等人,2021)。这些研究的发现还有助于揭示集体人类活动与底层城市结构的关系,例如社区内部和之间的联系(Ghahramani等人,2019),土地利用(Manley&Dennett,2019)和区域功能(Dong,Wang和Liu,2021)。
除了行为模式部分外,对城市动态信息的无监督学习也有助于揭示人们感知和互动城市空间的方式。大部分研究旨在回答人们喜欢在城市中去哪些地方,也就是确定感兴趣区域(AOI)(Devkota等,2019;胡等,2015;黄和李,2019;李等,2021;刘,Singleton等,2021;孙等,2021)。
在一项关于六个城市十年AOI演变的研究中,胡等人(2015)应用DBSCAN对地标Flickr照片进行聚类,以提取基于密度的点簇。此外,作者开发了一种谱聚类工作流程,计算图像相似性,以便将包含多个人共享视图的照片分组成簇,并选择最相似于所有其他照片的照片作为AOI的代表。结果有助于揭示城市吸引人的区域的增长以及城市发展,可以为“有魅力”的目的地的规划提供信息。这项工作还展示了无监督学习的多功能性,因为在同一项工作中,它被并行应用于不同类型的数据并且结果被合并。许多其他AOI研究都遵循相同的两步工作流程,即首先识别AOI簇,然后解释吸引力的原因。第二步的方法各不相同,除了上述优先选择照片的识别外,还可以通过主题建模来自帖子(Huang&Li,2019)和POI(Li等,2021)来实现。然而,第一步中使用的技术几乎完全是DBSCAN,只有一项研究在电话信号数据上应用k-means(Sun等,2021)。DBSCAN尤其适用于AOI提取,原因有两个:(1)AOI簇的数量很难估计,但DBSCAN不需要像k均值聚类那样预先确定簇的数量;并且(2)它能够稳健地检测具有任意形状的簇(Hu等,2015)。然而,由于无监督方法从数据结构中学习模式,研究人员指出,所得到的位置可能会继承输入数据集中的位置精度问题,对于所有年龄组而言不够代表性(Devkota等,2019; Huang&Li,2019; Sun等,2021)。
同样,有一组论文特别关注人类对空间的感知(Cai等,2019; Capela和Ramirez-Marquez,2019; Liu,Yin等,2020; Olson等,2021; Sparks等,2020; Steiger等,2016)。尽管它们都处理文本数据,但这些研究中似乎没有主导方法或目的,因此,我们强调一些特色论文:Steiger等人(2016)将SOM与LDA结合起来,从地理参考推文中提取流行话题的时空聚合;Capela和Ramirez-Marquez(2019)通过LDA主题建模检测构成每个城市“个性”的主题;Liu、Yin等人(2020)通过将POI类型嵌入二维空间中使用t-SNE可视化城市区域的语义结构,从而在降维过程中保持单词之间的语义关系;Olson等人(2021)利用自动编码器从Yelp的评论中学习相对稀疏的单词使用中的紧凑表示,并将这些表示用于归因于切实的社区变化。除了具体的应用,Abdul-Rahman等人(2021)的研究建立了一个通用框架,简化了从社交媒体中提取城市问题公共情感的过程,其中LDA将情感分类为高租金、噪音和社会隔离等主题。支持所提出方法的代码是公开发布的。
城市动态的另一个重要组成部分是交通流量。自早期以来,无监督学习已被引入交通预测中。Sun等人(2006)通过采用高斯混合模型(GMM)计算输入交通和下一个时间间隔的输出(下一段时间内的交通)之间的联合概率分布,预测短期交通流量。选择GMM的基本概念是自然界中的事件服从高斯分布。同样,Fiez和Ratliff(2020)在停车需求建模中应用GMM。然而,GMM仅通过高斯分布进行预测,并未考虑数据中的真实复杂相互关系。鉴于深度表示学习(GAN,自编码器)的进展,2021年发表了大量论文选择采用深度表示学习提取隐含和复杂的交通特征,并压缩大量原始数据(Chen等人,2021; Ranjan等人,2021; Zhang等人,2021)。例如,Chen等人(2021)提出了一个嵌入自编码器的混合预测模型,Zhang等人(2021)训练GAN学习实际历史交通流量的概率分布,通过学习的概率分布生成未来的交通流量。这两项研究中的模型有效地提高了预测准确性,相比之前的统计模型具有较强的泛化能力。
除了城市中的常规模式外,还存在一些异常值(outliers),即特殊事件(special events)。在这种情况下,众包数据类似于城市中的传感器,无监督学习有助于处理海量数据并实时识别异常城市事件,主要通过关注语义信息,这是事件检测的关键信息层。例如,Wang和Taylor(2019)通过LDA识别推特话题的地理位置,这些话题在短时间内迅速升级,并结合情感分析,通过负面情感的强度对紧急事件进行排名。所提出的框架直接建立在该社交媒体渠道的API上,因此为应急管理机构提供了实时跟踪和评估灾害的功能。有关相关工作,请参见(Zuo等,2018)。
另一种信息层由交通记录组成,例如出租车GPS轨迹(Wang等,2018)和交通视频(Singh&Mohan,2019),识别此部分的事件可以推断出不良交通行为或道路事故的发生。检测运动轨迹中的异常模式的方法很简单,例如,分层聚类成功地区分了常规轨迹和异常轨迹(Wang等人,2018)。然而,从交通视频中提取的信息更加模糊,变化更大。因此,再次引入了表示学习,Singh和Mohan(2019)训练了一个堆叠自编码器来生成视频特征的深度表示,所提出的通用方法能够以高准确度检测异常事件,例如不寻常的速度,轨迹,高位置。
最后,有一部分研究致力于对无监督算法进行特定改进,以更好地检查时空数据。Park等人(2021),Liu、Huang等人(2021)和Choi和Hong(2021)优化了DBSCAN算法,以更高效的方式对大规模时空数据集进行聚类或检测特征对象(类似于(Hu等人,2015)中阐述的任务)和集体活动,You(2021)提出了一种聚类方法,可以在没有设置先前假设或用户定义参数的情况下直接应用于空间数据。值得注意的是,这些论文都是最近(2021年)发表的,表明了对无监督方法和城市动态分析相关性的日益关注。
6. 讨论
6.1. 总体观察
根据我们的综述(第5节),无监督机器学习渗透到城市研究中的方式有很多,应用案例几乎涵盖了城市数据源的整个领域,从传统的人口普查数据(Paul & Sen, 2018)和卫星图像(Du et al., 2018)到个人活动的流行空间大数据,如智能卡记录(Manley et al., 2018)、通话记录(Rios & Munoz, 2017)和社交媒体(Olson et al., 2021)。我们观察到,审查的论文中的输入数据集通常非常大,例如,有1400万个交通出行记录(Sun & Axhausen, 2016)和700万个地理标记的Flickr照片(Hu et al., 2015),这证实了无监督学习在挖掘隐形模式方面的重要性随着城市数据的增长和多样化而增加。
在所有应用类型中,聚类是最常被利用的(图12)。聚类的普及与城市研究中的两个典型任务相一致:类型研究和空间聚合分析,这在被审阅的论文中经常出现。类型研究是跨越多个领域和不同尺度的多方面任务(Bobkova等人,2021;Guo等人,2021;Mikelbank,2004;Nguyen等人,2020;Oh和Kim,2019;Tessler等人,2016)。这种模式可以追溯到城市研究的前辈理论,将复杂的城市系统简化为几种类型,以便进一步解释。与传统分类受限于有限分析能力的分类相比,无监督方法通过量化更多观察结果的潜在关系,将任意性的问题降至最低(Liu,Deng等人,2019)。
空间聚合分析检查特定功能(例如零售)或人类活动(Liu、Singleton等,2021;Manley等,2018;Pavlis等,2018;Sun等,2016)的聚集地理范围。无监督学习通过考虑点之间的相对空间距离,不仅考虑相似性和差异性,而且还考虑了处理空间数据的能力。实际上,我们还注意到了其他几种空间感知的无监督技术,适用于不同的应用类型,例如地理加权PCA(Wu等,2020),同时还发布了新的支持框架(Park等,2021; You,2021),表明无监督方法在地理研究中的广泛适用性和日益重要的相关性。
在方法论方面,一些论文利用多种无监督技术的协同作用进行分析和解释(Gao等,2017; Hu等,2015; Samany,2019)。然而,我们注意到更常见的方法是将无监督方法与其他方法相结合,例如,在某些情况下,无监督学习被引入以提高先前模型的性能(Honjo等,2015; Xue等,2020),或者与有监督方法一起应用,例如,无监督主题建模补充有监督图像分割(Taecharungroj&Mathayomchan,2020; Wu等,2020),有监督模型测试从无监督方法中学到的表示的有效性(Olson等,2021)。这样的协作工作流程表明,无监督学习不仅可以独立应用,还可以优化现有方法并简化下游任务。此外,有监督学习可以为无监督学习的结果提供验证,以确保可靠性,并使无监督学习的结果更具可比性。
关于自主学习的最新技术,我们观察到这个领域一直在不断发展,但计算机科学的进展需要一定的时间才能应用到城市研究中。多年前就已经开发的方法,例如自编码器和生成对抗网络(Baldi,2012;Zhao等,2017),最近才引起城市研究的关注(Chen等,2021;Comber等,2020;Wijnands等,2019;Zhang等,2021)。此外,我们发现不同领域对自主学习技术的应用程度存在很大差异,例如交通研究和地理信息系统(GIS)正在受益于最先进的技术,而其他领域则落后。
这篇综述的潜在局限性在于方法论(第三部分)遵循常见的系统性综述方法,没有包括研究预印本和会议论文,这些论文可能描述了本综述没有涵盖的发展和方向。此外,由于研究主题的广泛性和审查论文中少数公开的技术细节,本综述未提供UL在城市相关任务中表现比较。
6.2. 问题
在本节中,我们将讨论研究人员经常引用的无监督方法的常见挑战和限制,以及我们自己的一些观察。
数据质量(Data quality)。无监督方法的有效性取决于输入数据的内在结构和质量。数据问题可能会导致偏见,并且来自不同来源的数据可能会产生不同的结果。研究人员经常引用社交媒体数据中的具体问题,例如人口统计学群体的代表性(Hu等,2015年),地理标记照片和帖子的位置准确性(Samany,2019年)以及边缘区域的稀疏信号(Steiger等,2016年)。除了来自社交媒体的数据外,视频和声音数据的质量也是一个问题,因为它们容易受到诸如黑暗和噪声等环境条件的影响(Oldoni等,2015年; Singh和Mohan,2019年)。
除了无监督学习可能受到数据质量差的影响之外,重要的是要注意到具有模糊模式的数据也会带来挑战。例如,左等人(2018)发现很难识别在推文中没有被广泛讨论的新兴事件,而辛格和莫汉(2019)报告从具有大量变化的车辆移动中提取模式的问题。
此外,没有控制预期结果的标签,无监督学习通常比其监督学习在执行相同任务时的准确性要低。例如,在土地利用分类和变化检测任务中,监督学习方法比无监督方法获得了更高的5-10%的总体精度(Chughtai等人,2021; Mohammady等人,2015)。然而,考虑到其降低成本和劳动力的优点,这对于城市研究的实施是不可避免的。两者之间存在权衡。
解释性(Interpretation)。考虑到 UL 学习无标签模式作为语义参考,解释结果可能会很困难。在聚类的情况下,生成实质性解释的最常见方法是通过手动汇总每个分组中最具代表性的变量来识别聚类特征。例如,Baum 等人(2006年)、Tessler 等人(2016年)和 Ferrara 等人(2017年)基于社会和环境指标的最重要特征开发并命名了当地的类型学。然而,这些研究人员都认为这种方法不被认为是统计上正确的。广泛的解释空间也意味着结论可能很容易受到个人观点的影响,这会损害它们的比较。
在这方面,尽管UL是一种保留数据结构内在模式的客观方法,但在解释阶段仍可能存在人为偏见。相反,SL的人为偏见可能在标签制作过程中产生。在选择两种方法之前,值得考虑哪种更方便,偏见更可接受。
此外,解释UL结果更加昂贵,因为它需要专业人员将模式与领域知识相关联,这就解释了为什么它在城市研究中相对较不流行 —— 在城市研究领域,很少有专家拥有所需的跨学科知识。
与缺乏语义意义类似,仅依靠无监督学习的结果(如分类、决定因素)与感兴趣的城市现象(如能源消耗、森林动态)之间的统计关系也无法被揭示出来(Ferrara等,2017; Li,Ying等,2020),因为它不涉及因果关系和影响程度。
验证(Validation)。验证是评估发现可信度和促进在更多地理位置复制研究的必要步骤。研究人员引用了两种验证方式:内部验证和外部验证。内部验证分析结果的内部结构(例如,凝聚力和分离度),每种UL技术都有成熟的内部验证方法,在许多论文中经常使用(Arbolino等人,2019; Feng&Liu,2013; Schmiedel等人,2015; Serra等人 ,2014; Vizzari和Sigura,2015)。
然而,在城市中使用无人监督的应用程序的研究并不仅止于内部验证。由于城市研究与实际实践密切相关,证明结果与实际情况一致始终是一个关注领域。为此,研究人员使用各种外部来源 - 历史洪水图,官方紧急事件记录,总体规划的土地利用,以前的研究结果,地面调查和手动标记(Akande等人,2019; Aljumaily等人,2017; Peng等人,2021; Richards&Tuncer,2018; Xu等人,2018; Xue等人,2020; Ye&Chen,2015; Zhang等人,2018)。但是,这些研究很少,仅占出版物的不到10%。这种外部信息并不总是容易获取(例如,调查数据需要耗费时间和金钱),而某些应用类型(例如,聚类和主题建模)的结果通常没有现有的基准可以进行比较,因此可能会质疑UL的完整性和可靠性。
6.3 开放科学
值得强调的是开放科学方面。在我们的审查池中,只有10篇论文公开发布了他们的代码,缺乏在进步方面的分享抑制了它们的传播到其他城市。鉴于无监督学习可以降低大规模城市分析的经济和专业门槛,特别是对于世界上大部分城市化发生的发展中国家尤其有价值(Ibrahim等人,2021年; Rahman等人,2019年; Rios和Munoz,2017年)。
为什么不分享代码,大家都懂!
似乎有必要提高开放科学的意识,我们希望这次讨论能够促进这一点——开发人员应该考虑共享推广城市研究发展地理平等的代码或模型,并为城市数据科学社区的开放发展做出贡献(Yap等人,2022)。
作者提到的这篇论文也很不错,https://doi.org/10.1016/j.compenvurbsys.2022.101825。这篇论文阐述了城市规划开源软件的发展现状。介绍了70个城市规划相关工具,并根据规划过程阶段、应用领域和用例进行分类。此外,还介绍了54个外围工具。这些开放工具为城市研究与分析提供了极大便利,提高了研究效率。
6.4. 研究机会
本节讨论可能增加该迅速扩展话题多样性和深度的潜在研究机会。关于我们在第6.2节中讨论的问题,有许多可能的研究方向可以回应它们。例如,社交网络数据的增加(例如从社交媒体和POI获取的文本、照片和视频)为不太主观且更可比较的解释提供了可行的机会。在相关研究的罕见情况下,它们都针对有限的应用,即揭示城市功能和旅行目的(Bi&Ye,2021; Gao等,2017; Huang&Li,2019)。似乎使用众包信息进行研究有值得探究的空白,因为未开发的其他发现的城市模式与人类感知有关,例如视觉特征,活力和城市形态。
此外,评论中揭示了一些任务可以通过具有不同特点的监督和无监督方法来完成:SL可以实现更高的准确性,而UL更具可传递性和可访问性。我们认为重新审视使用无监督方法的SL研究将是一个有意义的研究方向,其可靠性可以通过SL结果作为基础事实进行验证,同时为弥补许多发展中地区城市研究的差距提供更便宜和更高效的城市分析框架。
在地理方面的讨论继续进行,由于无监督方法可以轻松地在其他地方使用,因此有必要在不同社会经济和文化背景的地区进行比较研究。据我们所知,在建筑环境和城市动态领域,这种研究在很大程度上未得到足够的关注。
随着自编码器和生成对抗网络等当前深度学习模型已被证明在重建数据、填补缺失信息甚至进行逼真预测方面高度有能力,在城市应用中将它们运用起来无疑是一个研究前沿。考虑到相关出版物的比例很小以及涉及的主题有限(例如交通预测)(Ranjan等人,2021;Singh和Mohan,2019),在许多场景下扩展它们的使用案例是一个明显未被开发的机会,例如用于数字孪生的数据基础设施补充、实时城市监测的数据压缩、模拟城市系统的动态以及生成AI城市规划与设计。
最后,机遇也可以在快速发展的无监督学习技术领域中找到,因为新开发的方法可能会带来新的应用。例如,最近一个自我监督的图像预训练模型在各种计算机视觉任务中表现优于最佳监督模型(Goyal等,2021)。类似的努力正在全力以赴地提高无监督学习的准确性和效率,这些累积性的进步似乎很有前途。我们相信,随着无监督技术的进步,采用它们的城市研究将呈指数增长,但他们应该减少采用它们的滞后。
7. 结论
在本文中,我们回顾了无监督学习在城市研究中的应用。尽管无监督技术具有多样性和众多方法,但由于论文数量的不同和不同的应用,它们在一定程度上被监督对应方法所掩盖。然而,这使得我们能够在单篇综述文章中捕捉发展趋势,并提供了一个综合的应用列表,其中包括十几种无监督方法。
我们发现无监督学习的应用涵盖了城市数据源的整个领域。随着人类感知数据和建筑环境记录(例如街景图像)的不断增长,无监督学习应用的新奇性不断涌现,发现了城市的新模式和表现形式,这些形式可以为决策提供信息或催生新的下游分析。此外,在许多情况下,无监督学习使得异构多源数据汇聚明确地表示了多个尺度的复杂现实世界城市系统(Zhan等,2020年,Zhan等,2021年)。
我们认为聚类是最突出的应用类型,其次是主题建模,提供城市环境的自下而上理解。尽管无监督深度学习模型在其他领域已经变得流行,但它们在城市研究领域的潜力还未被充分挖掘。我们预计未来几年会看到这样的领域中出现越来越多的研究。相关的研究正在出现,如城市增长模拟(Albert等人,2018)、交通预测(Chen等人,2021)和环境美化(Wijnands等人,2019)。
本综述还讨论了无监督方法的局限性,并提出了几种解决方案。通过利用城市语义信息,我们相信可以减轻无监督学习结果的解释偏差。同时,考虑有监督和无监督学习的优势,并通过它们的协同优化分析方法也很重要。
我们还提供了一个简明的无监督学习介绍,作为对那些尚未考虑在研究中使用它的同行的温和概述。由于日益增长且易于访问的免费和开源实现,以及充满活力的数据科学社区,入门门槛从未如此低。我们希望本文能够提高对无监督学习潜力的认识,并促进进一步的应用。
我们预计未来城市研究的使用将会不断增长,这在很大程度上得益于可用数据量的增加和技术的进步。
附录





编辑:黄继彦