论文研读0530（基于循证思维的档案文献遗产数据故事化模型构建研究）

最新推荐文章于 2025-05-30 11:52:24 发布

椒椒。

最新推荐文章于 2025-05-30 11:52:24 发布

阅读量1.6k

点赞数 7

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_38978225/article/details/139328640

版权

基于循证思维的档案文献遗产数据故事化模型构建研究

摘要：
0引言
1 相关研究
2 基于循证思维的档案文献遗产数据故事化模型建构
3 可溯源循证：实现真实事件提取
4 可信赖循证：实现情节脉络组织
5 可解释循证：实现数据故事解读
6 基于循证思维的案例验证：“探寻塔夫绸的工匠精神”故事
7 结束语

作者：黎安润泽，牛力，谢震香

摘要：

[目的/意义]对于文化产业，认知门槛低、交互体验强、记忆点鲜明的数据故事丰富了文化传承与传播路径，为唤醒集体记忆提供新媒介。但是目前数据故事化研究主要集中于故事内容的生成，忽略了对来源数据的前期控制，使得故事的可信度和完整性受到质疑。
[方法/过程]引入循证思维，构建档案文献遗产的数据故事化模型，秉持可溯源循证、可信赖循证、可解释循证三项基本原则，全面搜寻事件证据，基于时空关联和语义逻辑构建事件证据链，结合多元互证方法，旨在创造更加准确的故事。
[结果/结论]以《近现代中国苏州丝绸档案》中“苏州塔夫绸工艺”相关内容为案例，验证模型的有效性与可行性，重塑数据故事化研究范式。

关键词：文献循证；数据故事化；档案文献遗产；苏州丝绸档案

0引言

数字经济时代下，数据作为关键的生产要素，为全社会创造出巨大的再生价值[1]。而相对于原始数据，加工后的数据故事能够让数据自己发声，告知、解释、说服或吸引目标受众[2]，逐渐成为数据科学的热门话题之一[3]。数据转化为数据故事的过程称作数据故事化（Data Storytelling），由数据要素（Data）、可视化要素（Visuals）、叙事要素（Narrative）三个要素构成。数据要素是对客观现象的记录与分析结果，可视化要素是采用适当图表格式对数据要素的呈现，叙事要素强调数据要素的语义逻辑与关联[4]。
当前的研究在数据故事化的基础理论、叙述方法论、技术工具、应用领域等方面均取得了一定程度的进展。然而，现有的成果更多地是将目光聚焦于故事内容的自动化生成与叙述方式，多聚焦故事的“后期呈现”而冷落数据的“前期控制”，忽略了故事的数据来源与内涵，导致技术驱动下的故事化结果难以考证，诱发公众对叙事内容的不认可、不采纳。为弥合从“数据”到“数据故事”之间的信任鸿沟，本文引入循证思维（Evidence-Based）优化数据故事化模式。文献循证研究是图情学科对数字人文研究的重要方法论贡献[5]，强调新研究结论的得出需要以原始文献资料中的客观事实为“本”，以证据链推导为“法”。
我国浩如烟海的古籍文献为循证研究提供了坚实的资源基础，能够还原计算所得的数字人文知识要素的丰富社会情境。其中，档案文献遗产区别于其他文献具有独特的原始记录性和凭证性[6]，最能反映当地独特的历史文化活动[7]。
因此，本文选择这类资源作为循证实践的素材来源，构建基于循证思维的档案文献遗产数据故事化模型，保障故事内容的可溯源性、可信赖性与可解释性，使得故事生成的每一步都有据可依。

1 相关研究

1.1文献循证研究

“循证”从字面意义上理解，意为“遵循证据”，最早起源于医学领域的“循证医学”研究。主要是慎重、准确和明智地应用所能获得的最好研究依据，来确定患者的治疗措施[8]。不同于传统研究方法，循证研究更强调借助各种形式的客观事实，以结论结果为依据，尽可能地消除个人经验判断的主观性。近年来，循证思想逐渐从医学领域延伸至人文社会科学领域，发展出循证法学、循证教育学、循证图书馆学等一系列交叉学科。文献循证被认为是循证思维与图书馆学融合而成的方法论，借助各种形式的文献中所包含的事实，对研究的问题形成一定的证据链，在一系列因果关系中寻找可靠结论的最佳实践[9]。
过去，数字人文研究备受争议的一点就在于对复杂社会问题的洞察与阐释力不足，导致重计算而轻人文，虽然能够通过计算得到丰富的结果，但也存在由于数据质量不稳定而产生的数据偏见现象。
文献循证的引入为弥补这一短板提供了有效手段。
一方面，体现在对过去的验证，经过证据要素提取、信效度检验、类目构建、综合分析等环节挖掘原始典籍的内容关联[10-11]，并基于记载历史事实开展文献资料循证，追寻史实真相；
另一方面，体现在对脉络的还原，通过构建多重证据参照体系[12]追溯证据内容的演变过程。典型应用为司徒凌云等[13]提出的基于多模态知识图谱的南海疆证据链系统技术体系，实现直观、严谨、忠实的多重脉络梳理，作为南海疆维权斗争的论据支撑。

1.2数据故事化研究

“故事化”概念兴起于19世纪90年代的图书馆学领域，倾向于使用叙事元素与方法来表征、解释、沟通、传达数据分析见解，帮助人们更深入地理解数据含义。
现有数据故事化研究主要集中在以下两个方面：
一是集中在理论模型探索，如朝乐门[14]基于数据故事的内涵特征，总结出金字塔模型，依次完成分析洞察、模型构建、形式化描述、叙事呈现，影响目标受众的认知行为，后又总结为DAIS模型[15]；
二是关注算法工具的应用效果，使用自然语言处理、社会网络分析、情感分析、时空分析等工具实现数据关系的量化分析[16]，然后经过合理的可视化来具象化故事内容，增强数据故事的视觉效果。技术性是数据故事化区别于传统叙事的显著优势，上海图书馆在交互式、艺术化理念指导下建构上海历史文化年谱，讲述城市历史文化演化故事[17]。在此之上，王晓光等[18]首先发现故事化过程的可信性问题，建构文化遗产数字叙事信任模型，从人机交互的视角探讨了如何提升系统可信度和用户信任感。

1.3研究述评

首先，档案文献遗产指具有一定的历史、文化、艺术、科学、技术或社会价值的各类记录[19]，继承了档案的凭证价值，具有一定的证据效力；具有翔实的内容，适宜作为文献循证研究的资源对象。
同时，档案文献遗产翔实地记载了若干历史进程、民间故事内容，为故事化提供了原始素材。
然而，针对这个对象的文章通常围绕内容知识组织[20]与技术性保护[21]展开，缺乏聚焦故事内容挖掘的研究，结合循证实践的成果更是少之又少。
最为相关的是曾静怡等[22]围绕“文化认同增强”所发表的文章。文章从阐释与展示两个维度构建档案文献遗产的叙事策略，但仍侧重于故事的讲述效果，而非内容的信效度。
可见，数据故事化研究在要素提取、生成以及可视化方面取得了一定进展，但大多忽视了过程中的数据筛选、结果检验等约束手段，导致故事的可信度与完整性难以保证，说明基于循证思维的档案文献遗产数据故事化路径仍有值得探讨的空间。

2 基于循证思维的档案文献遗产数据故事化模型建构

2.1 资源基础：

档案文献遗产的凭证材料价值目前，我国法律坚持证据概念的“材料说”，即可以用于证明案件事实的材料都可视作证据[23]，而档案文献遗产在广义界定下是真实记录和反映历史史实的文献材料，表现为纸质文件、历史照片、影视素材、遗存实物、口述记录等多种类型，与证据所强调的“材料性”“证明性”不谋而合，作为“证据链的一环”表征了历史的真实性[24]。
从载体价值来看，档案文献遗产首先保留了档案资源的“原始记录性”，但因记录材料与载体共为一体，正在逐渐老化、损毁与消失，具有“不可再生性”。从内容价值来看，档案文献遗产承载了时代背景与地域文化的集体记忆，具有“无可替代性”与“历史叙事性”，可作为证据内容的主要来源。以上价值都说明了以档案文献遗产为原始素材创建数据故事、还原历史进程的可行性与必要性。

2.2 逻辑基础：

数据故事化的内容组织过程有学者基于现有研究，将数据故事化流程归纳为探索数据、制作故事和叙述故事三大部分[25]。
首先，在档案文献遗产中，不乏对数据素材的整理。例如，彝族伦理档案文献遗产记载了彝族日常生活相关的道德伦理故事[26]，为了解当地人民的道德观念、文化习俗提供了原始素材。
“情节”在事件聚合成故事的过程中起到承上启下的作用。一方面，有学者秉持话语层次的情节观，将情节定义为“被叙述者选中统合到叙述文中的事件具有序列性的组合”[27]，认为情节是按照因果关系对事件的排序；另一方面，情节也被看作故事结构的主干[28]，通过选择合适的叙事主题、叙事目的以及叙事模式，编排创作出一篇跌宕起伏的故事。
总而言之，从资源素材到事件、情节、数据故事，是一个由点到线再到面的档案文献遗产内容重新组织过程，最后传递给读者以完整的释义。数据故事化内容组织过程见图1。

图1 数据故事化内容组织过程
Fig.1 Data storytelling content organization process

2.3 理论基础：

数字人文研究的文献循证范式对于循证社会科学而言，“证据”是研究的核心原语，生产、评价和转化应用高质量证据始终是循证社会科学研究的重要任务[29]。
循证研究的本质在于提升证据整合的效度，作为一种方法论，通过证据综合提高证据的可靠性、稳定性和可推广性[30]，图2说明了数据故事化中循证思维的作用机制。
第一，证据的可靠性意味着每份证据内容都应该完整，每一处痕迹都能溯回其形成本源[31]，将档案文献遗产作为原始素材，能够保证故事取材真实存在，表述为循证方法论中的“可溯源循证”。
第二，证据的稳定性表示每条证据链都应基于正确的逻辑，在全过程可信受控的管理模式下构建[32]，保证证据内容不在证据链形成过程中发生改变，维持基本的证据效力，表述为“可信赖循证”。
第三，证据的可推广性表明每个证据集都应具有确定的、易于读者理解的内涵指向，是面向研究问题的完整证据集合[33]，弥补“技术黑箱”带来的不确定性，表述为“可解释循证”。

图2 文献循证范式引入数据故事化过程
Fig.2 Introducing a literature-based paradigm in the data storytelling process

2.4 构建结果：

档案文献遗产数据故事化模型与原始的档案文献遗产相比，充分加工后的数据故事更加利于用户接受、理解和参与数据内容。循证思维下的档案文献遗产数据故事化，本质上就是保证故事形成的每一步都是遵循证据得到的，尽可能耦合档案资源的证据价值和文献内容的知识价值。
因此，面向档案文献遗产的数据故事化模型需要完成证据搜寻、证据链整合、多元互证三个环节，构建能够证明故事真实发生的证据链集合，如图3所示。

图3 基于循证思维的档案文献遗产数据故事化模型
Fig.3 Data storytelling model for archival documentary heritage based on evidence-based thinking

第一，循证思维指导下的证据搜寻环节，旨在从档案文献遗产中提取组成并判断故事内容的证据事件，满足可溯源循证原则。在证据法学研究中，真实性、完整性、关联性是证据的基本属性[34]，应尽可能收集到事实相关的所有证据，保证证据与指向事实、其他证据之间的关联可靠有效。
第二，循证思维指导下的证据链整合环节，旨在根据证据事件之间的逻辑关联联结成完整、合理的证据链，满足可信赖循证原则。所谓证据链是由两个及以上的不同证据（链节）组成，且证据（链节）相互联结的证据集合体[35]，使得证据之间能够相互印证，提高证据整体的证明力。
第三，循证思维指导下的多元互证环节，旨在综合不同数据、不同方法、不同主体对故事的解读，弥补单一证据的偏差，满足可解释性循证原则。
多元互证是人种学研究的方法论，强调研究同一个问题时融合核心要素，提升研究结论的可信度，主要包括数据互证（Data Triangulation）、研究者互证（Investigator Triangulation）、理论互证（Theory Triangulation）与方法互证（Method Triangulation）4种类型[36]。经过各类故事来源验证、各类方法的叙事结果整合与各类用户群体的校对，进一步校验数据故事内容的正确性，拼凑完整的情节脉络。

3 可溯源循证：实现真实事件提取

3.1 证据真实性保障：元数据提取

真实性是证据最重要的属性，意味着证据所反映的内容应当是真实且客观存在的[36]，首先需要保障其来源——档案文献遗产真实可靠。
元数据能够全方位描述资源的基本信息，追溯初始状态、校验修改记录。如操作时间、访问权限等描述管理过程的元数据项通过记录文件修改痕迹来保障真实性等[37]。
参考美国数字图书馆联盟的《元数据编码与传输标准》，按照功能将元数据分为描述元数据、管理元数据、结构元数据三类[38]。
其中，描述元数据指“为资源发现所提供的一些关键词及其集合”[39]。常见元数据项包括档案题名、档号、年度等，并通过描述档案文献遗产的基本信息，认定并追踪证据的档案来源，确保证据的合法性和可信水平。
管理元数据是对信息资源采集、加工、利用的管理过程信息的描述，通过描述档案文献遗产的载体格式、官方来源与权责归属、操作过程信息，保证档案文献遗产在保管过程中未出现篡改、伪造甚至丢失现象。
结构元数据用于描述资源内部的形式特征，可以帮助在更细的粒度层次定位证据内容的来源篇章。

3.2 证据完整性保障：

证据事件提取证据的完整性指的是需要尽可能全面发现案件事实发生后遗留的证据，以最大程度准确审查判断案情[40]。
根据证据的文本特征，定义时间、涉证地点、涉案地点、主体、行为、证据来源为单个证据知识元的6大要素[41]，不完整的证据可能导致对事实的缺漏甚至扭曲。
同理，在故事化过程中，为保持生成结果的正确性与细粒度知识点溯源的可行性，理应尽可能收集全面的相关内容，保证每一个事件单元在语义呈现上的完整性，提供详尽、完整的事件发生过程作为佐证，避免以偏概全的现象发生。
如图4所示，在定义事件组成要素时，在证据知识元的基础上（ “涉证地点”与“证据来源”要素不属于内容层面的信息，故不作参考），进一步融合“5W1H”传统故事模型，明确完整描述事件的发生必须提取哪些基本信息。“5W1H”模型最早来源于1948年H. D. Lasswell[42]提出的传播过程5要素，后来在故事化领域逐渐演变为时间（When）、地点（Where）、人物（Who）、起因（Why）、内容（What）、方式（How）共6个要素[14]，用以描述一件事的全貌。
档案文献遗产中常有关于人物成长、组织机构发展历程、社会变迁的记述，如表1所示，结合资源内容特性，抽取事件的时间、地点、主体、起因、经过、结果要素，是循证前期必要的素材准备。

图4 档案文献遗产事件要素来源
Fig.4 Sources of archival documentary heritage event elements

表1 档案文献遗产事件6大要素及示例
Tab.1 Six elements and examples of archival documentary heritage events
在这里插入图片描述

事件要素解释示例时间要素（When）描述事件发生的时间点或时间段，有助于理解事件发生的时间背景和上下文地点要素（Where）描述事件发生的地理位置，有助于理解事件受到的地域性影响，如地理环境、气候条件6主体要素（Who）描述参与事件的个人、群体或其他类型主体，不局限于“人物”，还包括其他实体对象起因要素（Why）描述事件发生的原因和动机，有助于揭示发起者的意图和目的，与事件发生的内在逻辑经过要素（What）描述事件的具体内容，是最关键的要素，用于详细说明事件相关的行动与变化结果要素（How）描述事件发生后的结果和影响，有助于分析事件带来的社会、经济、文化等各方面的意义注：数据源自《苏州新苏丝织厂志》。

3.3 证据关联性保障：事件关联提取

为确保证据与真实事件的关联性为人们可知，提取事件的基本要素后，需要解析档案文献遗产中复杂的语义内容。
一是深入挖掘这些要素之间的深层联系，反映故事中的互动、联系和影响；
二是提取单个事件之间的逻辑关系，建立上下文的语义连接，呈现故事情节中的起承转合，这是串联证据事件、形成证据链的核心依据。
借鉴宋宁远等[43]对事件间关系的划分，关系类型以时序关系和语义关系为主，前者用以表示在时间维度上事件发生的先后顺序，后者用以表示并列关系、起因—条件关系、解释关系等事理逻辑维度上的事件关联，如图5所示。
档案文献遗产描绘了丰富复杂的文化活动，为进一步规范事件关联的提取模板，可选择构建本体模型来明确事件的对象属性。相比于其他组织工具，本体在表示复杂语义关系上更具优势，如概念参考模型（CIDOC CRM）中提供了丰富的事件时序关系。

图5 事件间关联关系类型
Fig.5 Types of correlations between events

3.4 多重证据保障：多模态语义融合

档案文献遗产通常以传统纸质文献为主，但是结合地方或民族特色还包括照片档案、音像档案与实物档案（丝帛、宣纸、木牍、皮书、骨简等其他载体）。
因此，元数据证据的提取需要考虑多源异构资源的差异性，事件要素与关联证据的提取更是不能局限于叙事性文本的处理，而是应结合人工智能尤其是当下新兴的大语言模型，识别图像、音频、视频等多模态档案文献遗产的关键信息。借助本体描述、机器学习等方法进行语义标注与对齐，将描述同一事件的证据聚合在一起，形成证据库，尽可能避免出现知识歧义与冗余，提升证据的完整性与各种证据之间的关联性。

4 可信赖循证：实现情节脉络组织

4.1 证据链补全：基于事件关联的情节推理

证据链是能够互相印证的证据所构成的链条，其构造过程可以被描述成按照某种规则顺序排列的原子事件集合[44]。
因此，相比于单个事件表示的证据，证据链将多条证据按照抽取到的事件关系连接在一起，实质上是对信息资源内容的关联与融合[45]，能够更好地揭示历史事件或观点的逻辑推理过程，有助于构建更为可信的档案文献遗产数据故事。

4.1.1 时序关系补全

时间具有一维性特征，代表着时序关系是只可向前、不可逆转的。档案文献遗产中所记载的历史事件的发生也有着鲜明的先后顺序，这种顺序是客观、恒定的。
采用时间序列分析类方法，按照抽取到的时间要素与事件之间的时序关系，排列组合证据事件形成证据链，还原分析对象随时间变量的变化趋势，串联起数据故事的基本骨架。
这类基于时序关系的事件证据链强调时间维度上情节的连续性），主要可以用来证明某项事物随时间的发展演化结果，如在社会环境方面，讲述国家民族兴衰历程、个人成长轨迹、文化习俗传承故事，梳理历史时间线，在客观数据证据的支撑下更为准确地描述史实，见图6。

图6 基于时序关系的事件证据链
Fig.6 Chain of event evidences based on temporal relationships

4.1.2 语义关系补全

除了时序分析补强法，逻辑分析也属于增强证据链证明力的可行手段[46]。
基于归纳演绎、因果分析、比较分析等方法深究事件之间的语义关联，在时序证据链的基础上进行补充，使得情节发展合情合理。
区别于统计分析、社会网络分析关注的“数值性相关关系”，基于语义关系的证据链强调“何种相关”“为何相关”的“逻辑性相关关系”，通过文献考证与逻辑推断建立证据库中的事件实体的映射，尽可能避免数学运算结果在现实意义上的缺失，提升故事内容的可信任水平。
悉德·菲尔德[47]提出“三幕剧结构理论”：“剧情片均应由长短不一的三幕剧构成，分别是开端、中段、结局。一系列互为关联的偶然事故、情节或大事件按照线性安排，最后导致一个戏剧性的结局”。因此，事件证据链补全了背景、因果、转折等语义关系（见图7）。
相比于仅以时间先后关联，事件证据链更能够体现故事情节的一波三折，更适用于讲述充满“戏剧性”的故事。基于语义关系的事件证据链强调情节间的环环相扣，如政治权力斗争，佐证历史人物之间的奥援与对抗关系，描述政治团体内部与外部的权谋交易；“徐福东渡”“杨贵妃之死”等悬而未决的历史争点，基于档案文献遗产内容说明这些事件的背后动机、相关人物的行动以及情节转折点，帮助呈现故事全貌，推理事件真相。

图7 基于语义关系的事件证据链
Fig.7 Chain of event evidences based on semantic relationships

4.2 证据链可视：基于叙事工具的故事展示

从展示内容上来看，循证思维下档案文献遗产故事的可视化重点可以包括主干证据链的展示、主干补充证据的展示、每一节原子证据的展示[48]等，分别对应不同的叙事结构与证明情境；从展示方法上来看，人机交互技术、数据可视化技术、文本处理和信息融合技术等均属于可视化的关键技术，用来实现从证据材料到可读故事的蜕变。

4.2.1 叙事结构

国内外研究对叙事结构的探讨已取得了一定的成果，T. H. Davenport[49]认为时间、焦点、深度和方法是叙事的4个关键维度；Zeng等[50]在此基础上提出Linear（线性）、Screen（画面）、Network（网状）三种档案叙事结构；牛力等[51]从定域与结构两个视角归纳了档案数据组织可采用的故事化结构，其中以形态视角划分的故事结构包括锁链型、太阳型与网状叙事三类。证据链中多事件表现出不同的关联形态，用于展示和论证多种结构的故事。
如递进式叙事结构适用于证明情节简单的、单一主题、单向发展的故事内容，包括建筑建造历程、科技发明过程等；层级式叙事结构以主线和支线结合的方式，呈现主线事件衍生的支线事件线；放射式叙事结构适用于证明有明显话题中心、所有情节都与该中心相关的故事内容，包括名人社交团体、制度改革影响等。

4.2.2 视觉效果

馆藏故事呈现的设计应聚焦于时空还原和情感沉浸[52]，这意味着首先故事化需要考虑在美观的基础上考虑到证据链内容与可视化手段的搭配性，排布情节与设置悬念，客观还原历史进程。
常见的数据可视化图表中，时间轴用于呈现历史演变、今昔对比的情节；地理图形可用于展示限定时间段内的人物行迹，证实“名人造访”故事的真实性；其他统计图形通过数值计算来证明地区经济增长情况、自然气候变化等，并基于证据数据进行预测。
其次，故事化应利用档案文献遗产的多模态特征，通过视觉设计、交互设计等多感官刺激的方式，如利用VR、AR及仿真模拟技术，营造更加流畅、生动、富有感染力的故事讲述环境，拉近档案文献遗产与大众的距离。

5 可解释循证：实现数据故事解读

5.1 数据互证：故事来源聚合与验证

我国传统历史研究秉持对史料的参照、比较等考据方法与“孤证不立”等治史原则[53]，王国维先生总结出“二重证据法”，被国学界广泛认可，后来与西方的实证方法论借鉴融合，推广为“多重证据法”，强调通过独立来源的不同类型证据之间的相互印证，发现相对真理[54]。
单条证据链的证明力是有限的，需要聚合内外多种数据，以印证故事的真实性。
对内，不同档案文献遗产资源可能都描述同一件事，只是详略或记述视角不同，应将指向相同故事的证据聚成集合，结合多重视角解读史实；对外，在以档案文献遗产为主体资源的证据链的基础上，还要关联更多的外部资源，利用其他官方平台验证补充故事内容，形成广泛集成的证据网络。

5.2 方法互证：故事内涵拼合与分析

多元互证体系中的方法互证旨在强调，只要采用两种方法得到相同结果，或实证检验与理论推演达成统一，皆可采信[55]。
针对同一个数据故事，一方面采用归纳法与演绎法等不同定性方法，或者不同的定量方法分析证据链内容，若一致则能够证明证据链的可靠性，若内容有出入则考虑引用其他方法二次验证；另一方面采用定性与定量分析相结合的方法，将量化与可视化后的计算结果与人为解读的结论结合，如对比词频统计与文本语境分析，补足数据故事发生的社会、文化和历史背景，交代故事发生的上下文，分析故事的历史必然与后续影响，帮助更好地解读故事背后传递的主流意识形态与价值观。

5.3 主体互证：故事修正与价值传递

当前语境下的主体指的是通过平台浏览数据故事的各类用户，他们不仅是知识的接受者，还是知识内容的勘误者，借助交互窗口审核、修正故事，实现参与主体层面的多元互证与价值观念渗透，乃至文化传承传播。
其中，人文历史学者能够凭借自身的专业学识，指明当前故事中值得商榷的部分。而大众用户可以结合个人见解、亲身经历或口耳相传了解的坊间传闻，为数据故事注入更多的解读观点和“民间”版本，增强故事真实感。
故事经常作为教育工具，用来传递特定的价值观或道德准则，最终目标是有目的地讲述，以传承精神文化，呈现良好的价值观。
因此，主体互证使得各类用户了解故事人物的行为和经历，感悟故事背后呈现出的人文精神，思考和内化为自己的价值观，是完成数据故事解读的最后也最重要的一环。

6 基于循证思维的案例验证：“探寻塔夫绸的工匠精神”故事

6.1塔夫绸故事

原素材采集《近现代中国苏州丝绸档案》是对19世纪到20世纪末的苏州丝绸企业在技术研发、生产管理、贸易营销、成果获奖等方面的原始记录，共计29592卷，由苏州中国丝绸档案馆保存[56]。这批档案于2015年入选《中国档案文献遗产名录》，而后于2017年10月30日被联合国教科文组织正式列入《世界记忆名录》，因在中国丝绸文化传承传播方面具有珍贵的史料价值，由地方小众记忆一跃成为国际学者共同关注的世界记忆。
这批档案文献遗产记载了大量苏州“四大绸厂”万众一心革新丝绸工艺的故事，本文选择曾被用作英国戴安娜王妃婚纱衣料的“水榭牌真丝塔夫绸”为主题，首先参考牛力等[57]设计的档案文献遗产元数据方案，提取档案文献遗产《苏州东吴丝织厂厂志（1919—1982年）》的元数据项，包括档号、档案类型、丝绸品名等，以保障证据来源文献的真实性。其次，提取其中与塔夫绸相关的证据事件内容，抽取六大事件要素，实现原始文本的解构；最后，抽取证据事件之间的时序关系与语义关系，如识别出事件集合有发生时间的先后关系，为构建证据链提供完整的数据基础。塔夫绸故事的证据提取如图8所示。

图8 塔夫绸故事的证据提取
Fig.8 Evidence extraction of taffeta stories

6.2 塔夫绸故事证据链生成

《苏州东吴丝织厂厂志（1919—1982年）》档案文献遗产中，首先提取讲述新中国成立后塔夫绸制作工艺改进的证据事件共12项，分别编号为证据事件I~证据事件XII，时间跨度从1950年到1981年，按照时序关系初步形成证据链，表明塔夫绸工艺的渐进式发展，如图9所示。其次，组织证据事件之间复杂的语义关系，在时序证据链的基础上补全证据间的语义关系，增强故事证据链的证明力。
同时，起承转折呈现出跌宕起伏的故事情节——从塔夫绸在国内外展览初崭露头角，到遇到染色度问题等工艺瓶颈，生产品质不过关，货品被退回，再到东吴丝织厂上下齐心，经过上百次反复试验，基本赶超当时瑞士的制作水平，最终成为英国皇室婚礼用品而享誉国际，体现了丝织厂工人精益求精的工匠精神。
在故事展示方面，选择层级式叙事结构来呈现塔夫绸工艺精进的故事主线与“塔王诞生”“染色度难关”“荣获国家金质奖”“被选作戴安娜王妃婚纱”等故事支线内容，突出故事内容的丰富性；以“环环相扣”与时间轴结合的可视化图形展现故事情节的阶段性，层层递进、深入浅出地向读者讲述塔夫绸工艺精进的艰辛历程与辉煌成就。

6.3 塔夫绸故事多元化验证

单凭一份文书档案对故事内容的证明力是有限度的，因此多元互证环节广泛收集了不同模态文书档案、照片档案、音像档案与实物档案资源，不同来源的期刊文献、编研成果，以及经过加工计算《苏州东吴丝织厂厂志（1919—1982年）》文本得来的词频统计结果，共同作为“苏州塔夫绸被选作戴安娜王妃婚纱”这一故事情节的佐证证据，见图10。
可见，不仅是档案文献中的文字记述，亲历者的口述影像、丝绸订货单原件、选用塔夫绸样本所体现的内容大致相同，均可解释这一情节是真实发生过的，未经杜撰或夸张。此外，这些多元化的证据素材也丰富了故事呈现与价值传递的形式，帮助读者更好地理解塔夫绸工艺的国际影响，以及精美绸缎背后一代代丝织厂工人的工匠精神。

7 结束语

从古至今，故事一直是一种经久不衰的文学体裁。通过数据故事，可以关联沉睡在历史典籍中的集体记忆与数字化服务基础设施，在全空间共享文化资源。本文选择内容权威的档案文献遗产为研究对象，认为数据故事化必须遵循现存证据，在现有叙事研究框架之上引入循证思维，不再过分强调叙事结构与叙事工具，而是关注叙事内容质量，为重塑数据故事化路径提供指导。
从获取数据证据开始，把关故事情节生成过程，将故事化转换为证据链建构与推导过程，保障数据故事的可溯源性、可信赖性、可解释性，尽可能传达真实信息，这在一定程度上弥补了传统数字人文研究结论在获取用户信任方面的不足。
在实证环节，以《近现代中国苏州丝绸档案》中关于苏州塔夫绸的故事为例，构建证据链以论证“探寻塔夫绸的工匠精神”这一发生在东吴丝织厂的工人故事，整合多来源、多模态、多角度的证据素材增强故事的可信度，基本证明了文章所提及模型的有效性与可行性。
显而易见，如果数据来源不可靠，或者数据质量低噪声多，或者数据在加工组合的过程中被断章取义或误解滥用，即便采用最先进的叙述技巧和绚烂的可视化方式，也难以确保数据故事内容的权威性、合理性与科学性，反而会误导读者对人文历史事实的认知。
参考档案文献遗产数据故事化模型创作的可信数据故事，在公众与档案文献遗产之间架起一座坚固的桥梁，能够有效规避技术带来的幻觉风险，有助于打造具有公信力的国家文化大数据体系，增强中华文明传播力影响力。
与此同时，本文仍存在一定的需要完善的空间。在理论层面，当前的数据故事化模型仅面向档案文献遗产对象，面对其他类型的档案数据甚至是更大范围内的人文数据，如何构建更完整的路径来整合多模态数据共同论证仍需进一步探讨；在应用层面，后续研究计划引入大语言模型技术支撑自动化的证据提取与证据链构建，收集用户对模型构建效果的评价反馈，以进一步优化模型可用性与易用性，在提升故事可信度的同时降低故事阅读难度，推动文化历史内容普及与数字文化产业发展。