模型理论5_英语学术论文摘要语步结构自动识别模型的构建

最新推荐文章于 2020-11-22 01:51:49 发布

weixin_39887926

最新推荐文章于 2020-11-22 01:51:49 发布

阅读量1.4k

点赞数

文章标签：模型理论5 游戏模型提取工具ninjaripper 论文模型构建的步骤

本文构建了一个自动识别学术论文摘要语步结构的模型，通过结合语言学理论、语料库方法，提取形式、意义、语境维度特征，使用条件随机场训练分类器。研究发现，意义特征对识别效果最重要，优化模型的平均识别度达到0.7819，优于现有模型。该模型适用于多种类型摘要，为语步分析在更多学科领域的应用奠定了基础。

摘要由CSDN通过智能技术生成

提要：本文以 1993-2014 年期间 SSCI期刊《应用语言学》发表的学术论文摘要为语料，对英文摘要语步结构标注后，利用语料库和自然语言处理方法，提取有效语步预测特征，通过语步结构类别训练学习分类器(条件随机场)，获得摘要语步结构自动识别模型。本研究突破了长久以来依赖于人工的语步分析法，对语类研究以及英语学术写作具有借鉴意义和实用价值。

关键词：语类分析；语步结构；自动识别；英文摘要

1. 引言

摘要语步的自动识别模型本质上是一个文本自动分类模型。上个世纪九十年代以来，随着机器学习的兴起，文本自动分类成为信息科学中的一个重要目标。基于文本分类的研究成果，出现了三类摘要语步自动识别模型：第一类是基于同频统计构建的词袋模型，能穷尽词项特征，但不对特征进行筛选和归类，导致特征稀疏；第二类是基于规则提取语言学特征构建的模型，避免了特征稀疏的问题，但特征提取不全面不系统；第三类是结合词袋和语境特征构建的模型，特征识别效果很好，但只能针对结构规整的摘要，对结构不规则的摘要识别效果欠佳。

针对这种情况，本研究以现有的语步结构自动识别模型为出发点，结合语言学理论和语料库的方法，从形式、意义、语境三个维度提取能够有效预测语步的语言特征，试图构建运行效果更好的学术论文摘要语步结构的自动识别模型，为语类理论和实证研究走向更多学科和研究领域提供了可能，也对今后 ESP领域其他语类语步结构的自动识别开拓了道路。

2.国内外语类研究的发展现状 自Swales(1981)首次提出语步分析法后，从1995年起，相关论文不断涌现，至今依然是学术语篇的研究热点(徐昉，2013)。最近三年，语类研究出现了新的研究热点：①从学术语篇等常见语类转向新的语类，如购物网站的广告、企业年报等；②将语类理论应用到计算机辅助英语写作软件的开发中，如Type Your Own Script 和 The Research Writing Tool，都是先手工标注语步结构，再就语篇组织结构和语言使用方面自动给出反馈和评估；③利用语类理论进一步观察语篇内部的语言特征，探寻语料库研究结果背后的原因，如Adle(2014)，肖忠华、曹雁(2014)。然而，无论是新的语类，还是新的应用，语步分析都无一例外地受到了人工标注语步类别的局限，这个过程费时费力，很难进行大规模的语篇分析，其结果不易复制，限制了语步分析法与其他理论和方法的结合，限制了语类研究的发展等。 3.现有摘要语步结构自动识别模型 根据提取特征的侧重点不同，现有的摘要结构自动识别模型大概可以分为三大类。第一类为同袋模型，以文本中出现的所有同构成一个文本一词项矩阵，再根据同项在文本中的频率建立概率模型。Anthony(2002 ) 构建了第一个摘要语步自动识别模型。该模型选择了朴素贝叶斯算法,从 100 篇摘要中自动提取了1-5词的词串为特征，以信息增益进行特征降维处理，并基于该模型编写了摘要语步结构自动识别器AntMover ，对20 篇测试语料的平均准确率为 68%，各语步的准确率在17%-92%之间,识别度不高的主要原因是特征稀疏，特征降维仍无法避免提取的特征中出现许多在所有语步都普遍出现的词项。另外，朴素贝叶斯算法无法直接计算序列概率，不考虑摘要中各语步之间的顺序关系。第二类模型也采用词袋的方法，但更加关注语步之间的序列关系。该类模型的应用价值在于从大量医学论文摘要中挖掘出最新的医学研究成果。医学论文摘要多属于结