2025-0421学习记录16——文献阅读与分享(1)

今天阅读一篇论文(Data Descriptor),这篇文章来自中国科学院地理科学与资源研究所团队,发表于 Scientific Data 期刊,题目为:

🌍 Annual 30 m land cover dataset on the Tibetan Plateau from 1990 to 2023

先附上原文链接:Annual 30 m land cover dataset on the Tibetan Plateau from 1990 to 2023 | Scientific Data


✨ 摘要(Abstract)

  • 研究团队构建了一套时间跨度长达34年(1990–2023)、空间分辨率达30米青藏高原土地覆盖年度数据集(TPLCD);

  • 数据来源为Landsat系列卫星(L5/L7/L8),通过 Google Earth Engine(GEE)进行大规模处理;

  • 在方法上,采用了LandTrendr算法提取高质量的时间序列训练样本,结合随机森林(Random Forest)分类器时序平滑算法,显著提升了数据的稳定性与精度

  • 精度验证方面,使用了 Google Earth 影像人工解译 + 第三方权威数据集(如 Geo-Wiki、GLCVSS)验证,数据集的总体精度达到84.8%,Kappa系数达到0.78。

🧪方法(Methods)

✨研究区域:

青藏高原位于北纬 25°59′—40°1′、东经 67°40′—104°40′之间,地跨中国、印度、尼泊尔等 9 个国家,总面积 308 万平方公里,其中中国境内面积约 258 万平方公里,占总面积的 83.7% 。青藏高原平均海拔 4320 米左右,气候类型多样,气温和降水量总体由东南向西北递减,东南部气候温暖湿润,西北部较寒冷干燥,年平均气温-6~20℃,年平均降水量 20~4500 毫米。近几十年来,青藏高原面临着草原退化、栖息地丧失等一系列生态危机,开展连续、精准的土地覆盖监测尤为迫切,这对于捕捉细微的生态变化、及时预警潜在风险至关重要。

图1 研究区域(a)青藏高原的海拔(b)青藏高原使用的Landsat场景的地理分布(c)1990年至2023年每年青藏高原使用的Landsat场景数量

✨技术路线:

  • 使用 GEE 平台进行云端处理,效率高;

  • 用 LandTrendr 进行训练样本提取,省去人工选样难题;

  • 引入了“时序滑动窗口”策略优化分类序列的一致性;

  • 每年分类重复10次,取众数作为最终结果,减少随机性。

图2 技术路线图

✨数据处理:

  • 使用Landsat 5, 7, 8 的地表反射率产品

  • 云掩膜:CFMask方法

  • 年度合成:用中值合成消除噪声

✨分类体系:

青藏高原主要以高寒草原覆盖,高寒草甸和高寒草原是其典型组成部分。研究构建了包含十大土地覆盖类型的分类系统:农田、森林、灌木丛、高寒草原、高寒草甸、水体、裸地、不透水面、湿地和冰雪

✨特征变量构建:

他们用了 17 个特征变量,包括:

🌈 光谱指数(8个):

  • MNDWI(改进水体指数)

  • EVI(增强植被指数)

  • BSI(裸地指数)

  • SAVI(土壤调节植被指数)

  • NDBBI(建筑/裸地指数)

  • NDWI(水体指数)

  • maxNDVI(95分位)

  • minNDVI(5分位)

🏔️ 地形因子(3个):

  • DEM(海拔)

  • 坡度(slope)

  • 地形异质性(topographic diversity)

➕ 波段反射率(6个):

  • Landsat 6 个基础波段(B1-B6)

📚 可以借鉴的点

  • 加入 NDVI 的极值(max/min)可以增强时序变化的判断力;

  • NDWI + MNDWI 对区分水体/湿地非常关键;

  • DEM、坡度、地形多样性在高原/山区分类中非常有用;

  • 将不同类型变量拼接成多维特征向量,用于分类训练。

✨训练样本提取与分类:

📍 通过LandTrendr算法选稳定区

  • LandTrendr 算法是一种时序分段算法,能识别变化趋势和稳定状态;

  • 用于分析 NDWI、EVI、NDBBI 这三个指数的长期变化轨迹;

  • 找到长期稳定未发生变化的像元,在这些地方提取训练样本;

  • 这样能避免年份之间分类不一致的“漂移”问题。

🤖 分类方法:随机森林(RF)

  • 使用 RF 分类器,构建200棵树(考虑 GEE 平台内存限制)

  • 每年做 10次重复分类,然后取“众数”结果,提高鲁棒性

  • 再加一道工序:用滑动窗口(长度为5年)进行时间一致性平滑处理

📚 可以借鉴的技术要点

  • LandTrendr 在 GEE 上是现成可用的,可以自己跑试试看;

  • 这个思路比“人工挑样本”更加系统和自动化,非常适合做长时间序列。

📈技术验证(Technical Validation)

作者通过三种方式全面评估了 TPLCD 数据的准确性:

验证方式内容
① 自建验证集人工解译7000个点,覆盖1990–2023
② 外部验证集Geo-Wiki 和 GLCVSS 样本数据
③ 与已有数据对比与6种主流土地覆盖产品比较

图3 TP验证样本空间分布。( a )参考Google Earth影像目视解译的样本;( b )来自Geo-wiki和GLVSS的样本,照片中标明了两个平台上各土地利用类型的样本数量。


✅ 1. 使用人工解译样本验证

📍 方法:
从整个青藏高原区域,随机抽取了 7000 个点,并结合 Google Earth 历史影像进行人工目视解译,为每个年份(共34年)提供“真值标签”。

📈 结果:

  • 总体精度(OA):平均为 79.07%

  • Kappa系数:平均 0.76

  • 精度随时间整体上升,说明分类模型在不断改进

📊 按地类的F1-score排序:

地类F1 值
森林87.76%
水体86.54%
城镇85.59%
湿地83.24%
高寒草原79%左右
高寒草甸78%左右

📌 可以注意的细节:

  • 森林、水体、城镇类光谱差异大,分类效果好;

  • 草地类因为时序曲线和光谱较接近,F1略低;

  • 年度人工验证是非常耗时但高质量的工作,说明作者对数据很有信心。


✅ 2. 使用权威样本集进行验证

📚 a. Geo-Wiki 样本集验证(2000–2012)

  • 样本数量:1667个点

  • 来源:公共众包解译样本,标注置信度为“sure”

  • 参考数据:Landsat/Google Earth历史影像

📈 验证结果:

  • 平均 OA86.31%

  • 平均 Kappa0.77

  • 森林、草地、水体、裸地的分类精度最高

📚 b. GLCVSS 样本集验证(2013年以后)

 

  • 样本数量:1005个点

  • 来源:全球随机采样验证集

  • 主要覆盖 2013–2023 年

📈 验证结果:

  • 平均 OA88.44%

  • 平均 Kappa0.81

  • 草地、森林、水体、冰雪类分类表现稳定优异

📌 总结: 外部验证数据与作者人工样本验证结果基本一致,说明:

TPLCD 在多个时间段、多类样本、不同解译人员之间,都表现出良好的鲁棒性。


✅ 3. 与主流土地覆盖产品对比

作者选取了6个已有数据集,分别与TPLCD在共同年份和区域内进行对比,包括:

产品名称分辨率发布机构
GLC_FCS30D30m国家遥感中心
CLCD30m中科院遥感地球所
MCD12Q1500mMODIS
ESA WorldCover10mESA
FROM-GLC3030m清华大学
ESRI 10m LC10mESRI/GHS

📊 对比方法:

  • 将各产品统一转为 IGBP 分类体系;

  • 用年份重叠(如2020年)的分类图,统计不同地类的重叠精度

  • 用一致性(consistency)、F1-score、线性相关性(R²)进行综合评估。

📈 对比结论:

  • TPLCD 与其他数据集总体一致性较好;

  • 其中与 GLC_FCS30D 和 CLCD 的一致性最高(因为都是Landsat 30m);

  • 与 MCD12Q1 一致性较差(受限于500m分辨率);

  • 与 ESA 10m 数据在森林、水体类一致性也较高;

  • 城镇类在 ESRI 和 GAIA 产品之间差异较大 → 城镇扩张检测对分辨率要求更高。

综上所述,通过目视解译验证以及与第三方数据集的比对,TPLCD 展现出优于 MCD12Q1、ESA 的 GLC、CLCD、GLC_FCS30D 和 ESRI 的 GLC 的 OA 性能。TPLCD 的平均 OA 达到 84.8%,平均 Kappa 系数为 0.78。值得注意的是,TPLCD 提供了跨越 34 年(1990–2023 年)的连续时间序列,与 ESRI 的 GLC(2017 年至 2022 年)、ESA 的 GLC(2020 年至 2021 年)和 MCD12Q1(2001 年至 2022 年)相比,提供了更广泛的时间覆盖范围。


📥代码开源(Code availability)

  • ✅ 全部数据(1990–2023,30米)已开源发布在 Zenodo平台,格式为 GeoTIFF;

  • ✅ 分类代码也托管在 GEE 上,便于复现;


参考文献:

Li, S., Ge, Q., Sun, F. et al. Annual 30 m land cover dataset on the Tibetan Plateau from 1990 to 2023. Sci Data 12, 510 (2025). https://doi.org/10.1038/s41597-025-04759-6

数据下载地址:

Annual 30 m land cover dataset on the Tibetan Plateau from 1990 to 2023

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值