Coh-Metrix3 使用教程

简介:Coh-Metrix是一个计算工具,它能产生文本的语言和话语表征的指标。这些值可以用许多不同的方式来研究明确文本的衔接和文本的心理表征的一致性。我们对衔接的定义包括显性文本的特征,这些特征在帮助读者在精神上连接文本中的观点方面发挥了一些作用(Graesser, McNamara, & Louwerse, 2003)。连贯性的定义存在许多争论,从理论上讲,文本的连贯性是由语言表征和知识表征之间的互动来定义的。然而,当我们把焦点放在文本上时,连贯性可以被定义为文本中可能有助于心理表征连贯性的特征(即连贯性的各个方面)。 Coh-Metrix提供了此类衔接特征的指标。

官网地址:Coh-Metrixicon-default.png?t=N7T8https://soletlab.asu.edu/coh-metrix/


你需要在官网填写表单(Form)获取软件

另外你需要同意在所有报告Coh-Metrix结果的出版物中引用和引用以下参考资料:

McNamara, D. S., Graesser, A. C., McCarthy, P., & Cai, Z. (2014).  Automated Evaluation of Text and Discourse with Coh-Metrix. Cambridge: Cambridge University Press.

使用流程:

  1. 将软件下载到Windows机器上。
  2. 解压缩文件。
  3. 在“发布”文件夹中找到CohMetrix.exe并运行它。 
  4. 使用语料库查看器查看文本。 重要:要分析的文本需要以文本格式保存在文件夹或其子文件夹中。 检查每个文件,看看句子拼写是否正确。 对文本进行必要的修改,使其看起来更干净。 
  5. 关闭查看器并运行CohMetrix。 单击工作文件夹按钮。
    1. 系统将要求您选择语料库文件夹。
    2. 选中后,请确保文件夹已选中,并返回到CohMetrix。
    3. 在“CohMetrix”中,单击“运行”按钮,输入要保存结果的文件名。 完成后,应用程序应该开始处理文本。
  6. 一旦它开始运行,你就会看到进度。如果您发现文本需要很长时间来处理,您可以停止工具并检查文本,看看文本是否有任何问题。
  7. 如果您重新运行该工具以继续该过程,请记住使用相同的文件名来保存结果,以便文本不会被重新处理。

Coh-Metrix 3.0输出文件中的指标说明

Coh-Metrix 3.0中的指标分为11组:(1)描述性的,(2)文本易读性主成分分数,(3)指代衔接,(4)LSA,(5)词汇多样性,(6)连接词,(7)情景模式,(8)句法复杂性,(9)句法模式密度,(10)词汇信息,和(11)可读性。

1. 描述性指标

Coh-Metrix提供描述性指标,以帮助用户检查Coh-Metrix的输出(例如,确保数字有意义),也可以解释数据的模式。提取的指标包括下面列出的那些。在当前版本的Coh-Metrix(3.0版)的输出中,所有这些指标前面都有DES,以表示它们是描述性措施。

段数(DESPC)(指标01)

这是文本中的总段数。段落只是用硬回车来划分。

句子的数量(DESSC)。(指标02)

是文本中的句子总数。句子由OpenNLP分句识别。

词的数量(DESWC)。(索引03)

这是文本中的总字数。字数是用Charniak分析器的输出计算的。对于每个句子,Charniak分析器都会生成一棵带有句子、短语、单词和标点符号的言语部分(POS)标签的分析树。解析树的叶子上的元素是被标记的词或标点符号。在Coh-Metrix中,单词取自句子解析树的叶子。

段落的平均长度(DESPL)。(指标04)

这是文本中每个段落的平均句子数。较长的段落可能更难处理

段落平均长度的标准偏差(DESPLd)。(指标05)

这是衡量文本内段落平均长度的标准偏差。在输出中,在指标名称的末尾使用d来指定它是一个标准差。一个大的标准差表明文本在段落长度方面有很大的变化,例如它可能有一些非常短的段落和一些非常长的段落。短文中出现的标题可以增加这一衡量标准的数值。

(DESSL)中句子的平均字数(长度)。(指标06)

这是文本中每个句子的平均字数,这里的字是指被Charniak分析器标记为语音部分的任何东西。字数多的句子可能有更复杂的语法,可能更难处理。虽然这是一个描述性的措施,但这也提供了一个常用的句法复杂性的代理。然而,Coh-Metrix提供了本章后面讨论的其他更精确的句法复杂性测量方法。

句子平均长度的标准偏差(DESSLd)。(指标07)

这是衡量文本内句子平均长度的标准偏差。大的标准差表明文本在句子长度方面有很大的变化,例如它可能有一些非常短的句子和一些非常长的句子。短文中出现的标题可能会影响这一衡量标准。叙事性文本也可能有句子长度的变化,因为作者从简短的人物话语到长的场景描述。

词汇中的平均音节数(长度)(DESWLsy)。(指标08)

Coh-Metrix计算出文本中所有单词的平均音节数。较短的单词更容易阅读,对单词长度的估计可以作为单词频率的一个常见代理。

词语中平均音节数的标准偏差(DESWLsyd)。(指标09)

这是衡量文本内单词平均音节数的标准偏差。大的标准差表明该文本在词的长度方面有很大的变化,例如它可能有短的和长的词。

词语中的平均字母数(长度)(DESWLlt)。(指标10)

这是文本中所有单词的平均字母数。较长的词往往频率较低,或对读者的熟悉程度较低。

词中平均字母数的标准偏差(DESWLltd)。(指标11)

这是衡量文本中单词的平均字母数的标准偏差。大的标准差表明文本在词的长度方面有很大的变化,如它可能有短的和长的词。

2. 文本易读性主成分得分

近年的研究使Coh-Metrix易读性成分分析得到发展(Graesser, McNamara, & Kulikowich, 2011)。这些成分提供了一个更完整的文本易读性(和难度)的图景,这些图景是由文本的语言特征产生的。Coh-Metrix提供的易读性成分超越了传统的可读性测量,提供了语言和话语的多个层面的文本特征指标。此外,它们与文本和话语理解的理论非常一致(例如,Graesser, Singer, & Trabasso, 1994; Graesser & McNamara, 2011; Kintsch, 1998; McNamara & Magliano, 2009)。

叙述性。PCNARz, PCNARp(指标12, 13)

叙述性文本讲述了一个故事,其中的人物、事件、地点和事物都是读者熟悉的。叙事性与日常口语对话密切相关。这个强大的组成部分与单词的熟悉程度、世界知识和口头语言有很大关系。不太熟悉的主题的非叙事性文本则处于连续体的另一端。

句法简单性。PCSYNz, PCSYNp(指标14, 15)

这一成分反映了文本中的句子在多大程度上包含较少的单词,并使用较简单的、熟悉的句法结构,这对处理的难度较小。在连续体的另一端是包含更多单词的句子,并使用复杂的、不熟悉的句法结构的文本。

词的具体性。PCCNCz, PCCNCp(指标16, 17)

含有具体的、有意义的、能唤起心理图像的内容词的文本更容易处理和理解。抽象的词代表了难以直观表现的概念。含有更多抽象词汇的文本对理解来说更具挑战性。

参考性衔接。PCREFz, PCREFp (指标18, 19)

一个具有高指代衔接的文本包含在各句子和整个文本中重叠的词语和观点,形成明确的线索,为读者连接文本。低衔接的文本通常更难处理,因为对读者而言,将思想联系在一起的联系较少。

深度衔接。PCDCz, PCDCp (指标20, 21)

这个维度反映了当文本中存在因果和逻辑关系时,文本包含因果和意向性连接词的程度。这些连接词有助于读者对文本中的因果事件、过程和行动形成更连贯、更深入的理解。当一个文本包含许多关系但不包含这些连接词时,那么读者必须推断文本中的观点之间的关系。如果文本的深度衔接很高,那么这些关系和全局衔接就比较明确。

动词衔接。PCVERBz, PCVERBp (指标22, 23)

这个成分反映了文本中动词重叠的程度。当有重复的动词时,文本很可能包括一个更连贯的事件结构,会促进和加强情境模型的理解。这个部分的得分可能与面向年轻读者的文本和叙事性文本更相关(McNamara, Graessar, &Louwerse, 2012)。

连接性。PCCONNz, PCCONNp (指标24, 25)

这个部分反映了文本中包含明确的反义词、加义词和比较性连接词来表达文本中的关系的程度。该部分反映了文本中明确传达的逻辑关系的数量。这个分数可能与读者对文本中的关系的深入理解有关。

时间性。PCTEMPz, PCTEMPp (指标26, 27)

含有更多时间性线索的文本和具有更一致的时间性(即时态、方面)的文本更容易处理和理解。此外,时间性的衔接有助于读者对文本中事件的情境模型层面的理解。

3. 参照性衔接

参考性衔接指的是局部句子之间内容词的重叠,或共同参考。在当前版本的Coh-Metrix(3.0版)的输出中,所有这些指标前面都有CRF,以表示它们是共同参照的测量。共同参照是一种语言线索,它可以帮助读者在理解文本基础上建立命题、分句和句子之间的联系(Halliday & Hasan, 1976; McNamara & Kintsch, 1996)。Coh-Metrix对指代衔接的测量在两个方面有所不同。首先,这些指标从局部到更全局都有所不同。局部衔接是通过评估连续的、相邻的句子之间的重叠来测量的,而全局衔接是通过测量一个段落或文本中所有句子之间的重叠来评估的。下面提供了关于共指测量的其他信息。

名词重叠(CRFNO1和CRFNOa)。(指标28, 31)

这些是衡量句子之间在名词方面的局部和整体重叠的指标。邻近名词重叠(CRFNO1)表示文本中从一个句子回到前一个句子的名词重叠的平均句子数。在共同参照指标中,它是最严格的,即名词必须在形式和数量上完全匹配。局部重叠只考虑相邻的句子,而全局重叠(CRFNOa)考虑的是每个句子与其他每个句子的重叠。如表4.1所示,在比较所有的句子时,略高于50%的相邻句子含有重叠的名词,文本中43%的句子对含有重叠的名词(全局重叠)。

论点重叠(CRFAO1和CRFAOa)。(指标29, 32)

这些局部和全局重合度量与名词重合度量相似,但包括句子之间在名词和代词方面的重合。当一个句子中的名词与另一个句子中的同一名词(单数或复数形式)发生重叠时,就会出现论据重叠;当两个句子之间有匹配的人称代词(如he/he)时,也会出现论据重叠。术语参数是在语言学意义上使用的,其中名词/代词参数与动词/形容词谓语形成对比(Kintsch & Van Dijk, 1978)。考虑表4.1中第二栏中的科学段落的参数重叠。请注意,与名词重叠相比,它没有那么严格,因为它考虑了例如细胞和细胞之间的重叠。论据和词干重叠还包括代词之间的重叠,如它对它,或他对他,而名词重叠不包括这些。

茎部重叠(CRFSO1,CRFSOa)。(索引30, 33)

这两个局部和全局的重叠度量,放松了名词和论据重叠度量所持有的名词约束。一个句子中的名词与前一个句子中的内容词(即名词、动词、形容词、副词)相匹配,这些内容词有一个共同的词组(例如,树/treed;老鼠/mousey;价格/priced)。值得注意的是,表4.1中的词干和论据重叠的结果是相同的;但是,情况不会总是这样的。

内容词重叠(CRFCWO1, CRFCWO1d, CRFCWOa, CRFCWOad) . (指标34, 35, 36, 37)。

这个衡量标准考虑的是明确的内容词在成对的句子之间重叠的比例。例如,如果一个句子对的字数较少而有两个字重叠,那么这个比例就比一个句子对的字数多而有两个字重叠的比例大。这个衡量标准包括局部(CRFCWO1)和整体(CRFCWOa)指标,还包括它们的标准偏差(CRFCWO1d,CRFCWOad)。在表4.1提供的例子中,本地和全局的内容词重叠度都低于二元重叠分数所估计的水平。当文本中的句子长度是一个主要关注点时,这个测量方法可能特别有用。

隐喻重叠(CRFANP1,CRFANPa)(指标38,39)

这个衡量标准考虑的是成对的句子之间的 Anphor 重叠。如果后面的句子包含一个代词,而这个代词指的是前面的句子中的代词或名词,那么这对句子就有 anphor 重叠。每对句子的得分是二进制的,即0或1。文本的衡量标准是这对分数的平均值。这个衡量标准包括本地(CRFANP1)和全球(CRFANPa)指标。

4. 潜在语义分析

潜在语义分析(LSA;Landauer等人,2007)提供了对句子之间或段落之间的语义重叠的测量。Coh-Metrix 3.0提供了八个LSA指标。每个衡量标准从0(低衔接)到1(高衔接)不等。

LSA句子相邻。LSASS1(指标40)

这个指标计算相邻的、句子与句子(缩写为 "屁股")单元的平均LSA余弦值。这衡量了每个句子与下一个句子在概念上的相似程度。

例子:

文本1:The field was full of lush, green grass. The horses grazed peacefully. The young children played with kites. The women occasionally looked up, but only occasionally. A warm summer breeze blew and everyone, for once, was almost happy.

文本2:The field was full of lush, green grass. An elephant is a large animal. No-one appreciates being lied to. What are we going to have for dinner tonight?

在上面印出的例子中,文本1的LSA得分比文本2高得多。文本1中的词语在主题上往往与田园风光中的愉快一天有关: green, grass, children, playing, summer, breeze, kites, andhappy,与此相反,文本2中的句子往往没有关联。

LSASS1d (指标41)

该指标计算相邻句子之间(缩写为 "ass")单元的LSA余弦的标准偏差。这衡量相邻句子在语义上重叠的一致性。

LSA句子全部。LSASSp (指标42)

与LSA句子相邻(LSAassa)一样,该指标计算平均LSA余弦。 然而,对于这个指标,所有的句子组合都被考虑,而不仅仅是相邻的句子。LSApssa计算每个句子与文本中其他每个句子在概念上的相似程度。

LSASSpd(指标43)

该指标计算段落内所有句子对的LSA余弦的标准偏差。

LSAPP1(指标44)

该指标计算相邻段落之间LSA余弦的平均值。

LSAPP1d (指标45)

该指标是相邻段落之间LSA余弦的标准偏差。

LSAGN (指标 46)

这是每个句子的平均给定度。

LSAGNd (指标47)

这是每个句子的给定度的标准偏差。

5. 词汇的多样性

词汇多样性指的是文本中出现的独特词汇(类型)的种类与词汇(标记)总数的关系。当单词类型的数量等于单词(标记)的总数时,那么所有的单词都是不同的。在这种情况下,词汇的多样性达到了最大值,文本很可能要么衔接很低,要么非常短。文本中大量不同的词表明,新的词需要被整合到话语环境中。相比之下,当更多的词在整个文本中被多次使用时,词汇的多样性就比较低(而衔接就比较高)。

类型-符号比率。LDTTRc(指标48)

类型-符号比率(TTR)(Templin,1957)是独特的词(称为types)的数量除以这些词的令牌数量。文本中的每个独特的词被认为是一个词的类型。一个特定词的每个实例都是一个标记。例如,如果狗这个词在文本中出现了7次,它的类型值是1,而它的标记值是7。 当类型-标记比率接近1时,每个词在文本中只出现一次;理解应该是比较困难的,因为许多独特的词需要被解码并与话语背景结合。随着类型-符号比率的降低,单词在文本中会重复出现很多次,这应该会增加文本处理的难度和速度。类型-符号比率是针对实词计算的,但不包括功能词。当长度相似的文本进行比较时,TTR分数是最有价值的。

例子:Cytokinesis, the second stage of cell division, begins to occur before mitosis is complete (usually during telophase) and continues after the nuclei of the daughter cells are completely formed. The preliminary steps of cytokinesis occur during the growth interphases (called the G phases) of the cell cycle. 在这些句子中(取自帮助工具中后面转载的文本),内容词的TTR为0.933。像阶段这样的词只出现一次,但像细胞分裂和细胞这样的词却出现不止一次。Coh-Metrix在其计算中使用词素版本,而不是词条或词干版本;例如,细胞被认为与细胞不同。

LDTTRa (index 49)

所有词的类型标记比率。

LDMTLDa (指标50)

所有词的MTLD词义多样性测量。

LDVOCDa (指标51)

所有词的VOC词性多样性测量。

6. 连接词

连接词在建立观点和分句之间的内聚联系方面发挥着重要作用,并提供了关于文本组织的线索(Cain & Nash, 2011; Crismore, Markkanen, & Steffensen, 1993; Longo, 1994; Sanders & Noordman, 2000; van de Kopple, 1985)。Coh-Metrix为所有的连接词(CNCAll)以及不同类型的连接词提供了一个发生率分数(每1000个单词的发生率)。Coh-Metrix提供了五类连接词的指标(Halliday & Hasan, 1976; Louwerse, 2001):因果型(CNCCaus; because, so),逻辑型(CNCLogic; and, or),对抗型/对照型(CNCADC; although, whereas),时间型(CNCTemp, CNCTempx; first, until),以及加数型(CNCAdd; and, moreover)。此外,还有积极连接词(CNCPos;also,moreover)和消极连接词(CNCNeg;然而,但是)之间的区别。

所有连接词。CNCAAll(指标52)

这是所有连接词的发生率。

因果连接词。CNCCaus (index 53)

这是因果连接词的发生率得分。在各种类型的连接词中,只有因果连接词(CNCCaus)能够区分高衔接和低衔接的文本,这可能是因为创造这些文本的研究人员主要操作的是因果连接词,而不是加性连接词、时间连接词或澄清连接词。

CNCLogic(指标54)

这是逻辑连接词的发生率得分。

CNCADC (指标 55)

这是对抗性/对比性连接词的发生率得分。

CNCTemp (指标56)

这是时间性连接词的发生率得分。

CNCTempx (index 57)

这是扩展的时间性连接词的发生率得分。

CNCAdd (index 58)

这是加法连接词的发生率得分。

CNCPos (index 59)

这是正连接词的发生率得分。

CNCNeg (index 60)

这是负连接词的发生率得分。

7. 情境模式

语篇处理和认知科学的研究者用表达情境模型来指代文本的心理表征水平,它所涉及的内容远远超过明确的词语(van Dijk & Kintsch, 1983; Graesser & McNamara, 2011; Graesser, Singer, & Trabasso, 1994; Kintsch, 1998; Zwaan & Radvansky, 1998)。一些研究者用编译者的心理表征中存在的特征来描述情境模型,当一个特定的情境被激活时(例如,Singer & Leon, 2007)。例如,对于叙述性文本中的情节,情境模型将包括情节。在一个关于循环系统的信息文本中,情况模型可能传达血液的流动。

SMCAUSv (指标61)

这是因果动词的发生率得分。

因果内容。SMCAUSvp (指标62)

这是文本中因果动词和因果粒子的发生率。

有意的内容。SMINTEp (指标63)

这是有意图的行动、事件和粒子的发生率(每千字)。

因果衔接。SMCAUSr (指标64)

这是一个因果粒子(P)与因果动词(V)的比率。分母以1的数值递增,以处理文本中没有因果动词的罕见情况。当文本中有许多因果动词(表示事件和行动),但表示事件和行动之间联系的因果粒子很少时,衔接就会受到影响。 点击这里查看因果粒子的清单

有意的衔接。SMINTEr (指标 65)

这是意向性粒子与意向性行动/事件的比例。

SMCAUSlsa (指标66)

这是动词之间的LSA重叠度。

SMCAUSwn (索引 67)

这是动词之间的WordNet重叠度。

时间衔接。SMTEMP (指标68)

这是时态和语态的重复得分。时态的重复得分与方面的重复得分取平均值。

8. 句法复杂度

句法理论将单词归入语篇类别(如名词、动词、形容词、连接词),将单词归入短语或成分(名词短语、动词短语、介词短语、从句),并为句子构建句法树结构。例如,有些句子很短,句法简单,遵循演员-行动-对象的句法模式,即使有也是很少的嵌入句,而且是主动语态而非被动语态。有些句子具有复杂的嵌入式句法,可能会对工作记忆产生更多的要求。如果句子较短,主句的主动词之前的字数较少,每个名词阶段的字数较少,则文本中的句法往往更容易处理。

主动词前的词。SYNLE (指标69)

这是句子中主句的主动词之前的平均字数。这是对工作记忆负荷的一个很好的指标。

每个NP的修饰语:SYNNP(指标70)

这是每个名词短语的平均修饰语数量。

SYNMEDpos (指标71)

这是根据语篇标签计算的相邻句子之间的平均最小编辑距离得分。注意,编辑动作是在两个句子中的POS标签上进行的,而不是在两个词中的字母上进行的。详见Coh-Metrix一书。

SYNMEDwrd (索引 72)

这是由单词计算出的相邻句子之间的最小编辑距离得分。注意,编辑动作是对两个句子中的词而不是两个词中的字母进行的。详见Coh-Metrix一书。

SYNMEDlem (索引 73)

这是来自词条的相邻句子之间的最小编辑距离得分。请注意,编辑动作是对两个句子中的词条而不是两个词中的字母进行的。详见Coh-Metrix一书。

句法结构相似性相邻。SYNSTRUTa (指标74)

这是所有相邻句子之间相交树节点的比例。

句法结构相似性全部01:SYNSTRUTt(指标75)。

这是所有句子之间和各段之间的交叉树节点的比例。

9. 句法模式密度

句法的复杂性还体现在特定的句法模式、单词类型和短语类型的密度上。Coh-Metrix提供了关于名词短语(DRNP)、动词短语(DRVP)、副词短语(DRAP)和介词(DRPP)的发生率信息。其中每一个的相对密度可以预期会影响文本的处理难度,特别是相对于文本中的其他特征而言。例如,如果一篇文章的名词和动词短语发生率较高,那么它就更有可能是信息密集的复杂句法。

DRNP(指标76)

这是名词短语的发生率得分。

DRVP(指标77)

这是动词短语的发生率得分。

DRAP(指标78)

这是副词短语的发生率得分。

DRPP(指标79)

这是介词短语的发生率得分。

DRPVAL(指标80)

这是无代理的被动语态形式的发生率。

否定词。DRNEG(指标81)

这是否定式表达的发生率得分。

语法:DRGERUND (指标82)

这是动名词的发生率得分。

DRINF(指标83)

这是不定式的发生率得分。

10. 词汇信息

词的信息是指每个词都被分配到一个句法语篇类别,因此,句法类别被分隔为内容词(如名词、动词、形容词、副词)和功能词(如介词、定语、代词)。许多词可以被分配到多个句法类别。例如,"bank "这个词可以是一个名词("river bank"),一个动词(" don’t bank on it "),或者一个形容词("bank shot")。Coh-Metrix根据每个词的句法语境,只给每个词分配一个语篇类别。此外,Coh-Metrix还计算词频分数和心理学评分。

WRDNOUN(指标84)

这是名词的发生率得分。

WRDVERB (指标85)

这是动词的发生率得分。

WRDADJ (指标86)

这是形容词的发生率得分。

WRDADV (指标 87)

这是副词的发生率得分。

人称代词。WRDPRO (指标88)

这是每1000个词中人称代词的数量。如果读者不知道人称代词指的是什么,那么高密度的人称代词就会产生指代衔接问题。 例子:Paul told John that he wanted to help him out.

这句话中的he和him都是代词,导致密度为200分。然而,这些代词是模糊的,因为我们不知道哪个代词是指哪个人。

WRDPRP1s (指标89)

这是代词的发生率得分,第一人称,单一形式。

WRDPRP1p (指标90)

这是代词的发生率得分,第一人称,复数形式。

WRDPRP2 (指标91)

这是第二人称代词的发生率得分。

WRDPRP3s (指标92)

这是第三人称代词的发生率,单一形式。

WRDPRP3p (指标 93)

这是第三人称代词的发生率,复数形式。

WRDFRQc (指标94)

这是内容词的平均词频。

WRDFRQa (指标95)

这是所有词语的平均词频。

WRDFRQmc (指标96)

这是句子中的平均最小词频。

习得年龄(WRDAOAc)。 (指标97)

Coh-Metrix包括来自MRC的习得年龄规范,该规范由Gilhooly和Logie(1980)针对1903个独特的单词编制而成。指标名称末尾的c表示它是针对文本中的内容词的平均评分计算的。习得年龄反映了有些词比其他词更早出现在儿童的语言中的概念。像皮质、教条和矩阵(AOA=700)这样的词比牛奶、微笑和小马(AOA=202)这样的词有更高的获得年龄得分。习得年龄分数较高的词表示儿童较晚学会的口语词。

熟悉度(WRDFAMc)。(指标98)

这是对一个词对成年人来说有多熟悉的评级。有更多熟悉的词的句子是更快被处理的词。MRC提供了3488个独特单词的评级。Coh-Metrix提供了文本中内容词的平均评级。熟悉程度的评分者用7分制进行评分,1分代表他们从未见过的单词,7分代表他们经常见到的单词(几乎每天都有)。评级结果乘以100并四舍五入为整数。 例如,牛奶(588)、微笑(594)和小马(524)这些词的平均熟悉度为569,而小号(364)、教条(328)和马努斯(113)这些词的平均熟悉度为268。熟悉度非常高的词包括母亲(632)和水(641),而calix(124)和witan(110)。

具体性(WRDCNCc)。(指标99)

这是一个关于一个词的具体或非抽象程度的指标。比较具体的词是那些你能听到、尝到或触摸到的东西。MRC提供了4293个独特单词的评级。Coh-Metrix提供了文本中内容词的平均评级。在具体性方面得分较低的词包括协议(264)和差异(270),而盒子(597)和球(615)。

可想象性(WRDIMGc)。(指标100)

在MRC的合并评级中也提供了一个关于构建该词的心理形象有多容易的指标,它提供了4825个词的评级。Coh-Metrix提供了文本中内容词的平均评级。低意象词的例子有理由(285)、教条(327)和泛音(268),而高意象的词如手镯(606)和锤子(618)。

意义性(WRDMEAc):(指标101)

这些是Toglia和Battig(1978)在科罗拉多州开发的语料库中的意义性评分。MRC提供了2627个词的评级。Coh-Metrix提供了文本中内容词的平均评级。有意义的词的一个例子是人(612)与女修道院院长(218)相比。有意义性得分较高的词与其他词(如人)高度相关,而有意义性得分较低则表明该词与其他词的关联性较弱。

多义词(WRDPOLc)。(指标102)

多义性指的是一个词的感觉(核心含义)的数量。例如,银行这个词至少有两种意义,一种是指用于存钱的建筑物或机构,另一种是指河流的一侧。Coh-Metrix为文本中的内容词提供平均多义性。WordNet中的多义词关系是基于synsets(即相关的词汇项目组),它被用来表示类似的概念,但要区分同义词和词义(Miller等人,1990)。这些同义词允许区分感觉,并为研究与一个词相关的感觉的数量提供了基础。Coh-Metrix报告了文本中所有内容词的WordNet多义性的平均值。词的多义性被认为是文本模糊性的标志,因为一个词包含的意义越多,就有可能有更多的词汇解释。然而,更多的词也倾向于有更多的含义,因此文本中更高的多义词值可能反映了更高频率词的存在。

Hypernymy(WRDHYPn、WRDHYPv、WRDHYPnv)。(指标103, 104, 105)

Coh-Metrix还使用WordNet来报告单词超义性(即单词的特异性)。在WordNet中,每个词都位于一个分层的尺度上,允许测量目标词下面的从属词和上面的超属词的数量。因此,entity作为名词chair的一个可能的超义词,将被分配到nu1mber 1。实体的所有其他可能的外来语,因为它与椅子的概念有关(例如,物体、家具、座位、椅子、野营椅、折叠椅)将获得更高的数值(也见第二章)。对动词(如hightail、run、travel)也会分配类似的值。因此,较低的数值反映了对不太具体的词语的总体使用,而较高的数值反映了对更具体的词语的总体使用。Coh-Metrix为名词(WRDHYPn)、动词(WRDHYPv)以及名词和动词的组合(WRDHYPnv)提供超义词的估计。

11. 可读性

评估文本难度的传统方法包括各种可读性公式。多年来已经开发了40多个可读性公式(Klare, 1974-1975)。最常见的公式是Flesch阅读容易度分数和Flesch Kincaid等级。

Flesch阅读容易度。RDFRE(指标106)

Flesh阅读容易度公式的输出是一个从0到100的数字,分数越高表示阅读越容易。平均而言,文件的Flesch阅读容易程度在6至70之间。该公式提供如下: READFRE = 206.835 - (1.015 x ASL) - (84.6 x ASW)。其中:ASL = 平均句子长度 = 词数除以句子数。这与READASL相同。ASW(来自CELEX数据库)=每个单词的平均音节数=音节数除以单词数。这与READASW相同。

Flesch_Kincaid等级水平。RDFKGL (指标 107)

这个更常见的Flesch-Kincaid等级公式将阅读容易度得分转换为美国的等级学校水平。数字越大,文本就越难读。年级的范围从0到12。READFKGL = (.39 x ASL) + (11.8 x ASW) - 15.59 一般来说,一篇文章一般应该有200个字以上,才可以成功应用Flesch-Kincaid等级公式。

RDL2 (指标108)

这是第二语言的可读性得分。

参考文献:Coh-Metrix指标说明

  • 32
    点赞
  • 36
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
该资源内项目源码是个人的课程设计、毕业设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。 该资源内项目源码是个人的课程设计,代码都测试ok,都是运行成功后才上传资源,答辩评审平均分达到96分,放心下载使用! ## 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.md文件(如有),仅供学习参考, 切勿用于商业用途。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值