简介:Coh-Metrix是一个计算工具,它能产生文本的语言和话语表征的指标。这些值可以用许多不同的方式来研究明确文本的衔接和文本的心理表征的一致性。我们对衔接的定义包括显性文本的特征,这些特征在帮助读者在精神上连接文本中的观点方面发挥了一些作用(Graesser, McNamara, & Louwerse, 2003)。连贯性的定义存在许多争论,从理论上讲,文本的连贯性是由语言表征和知识表征之间的互动来定义的。然而,当我们把焦点放在文本上时,连贯性可以被定义为文本中可能有助于心理表征连贯性的特征(即连贯性的各个方面)。 Coh-Metrix提供了此类衔接特征的指标。
官网地址:Coh-Metrixhttps://soletlab.asu.edu/coh-metrix/
你需要在官网填写表单(Form)获取软件
另外你需要同意在所有报告Coh-Metrix结果的出版物中引用和引用以下参考资料:
McNamara, D. S., Graesser, A. C., McCarthy, P., & Cai, Z. (2014). Automated Evaluation of Text and Discourse with Coh-Metrix. Cambridge: Cambridge University Press.
使用流程:
- 将软件下载到Windows机器上。
- 解压缩文件。
- 在“发布”文件夹中找到CohMetrix.exe并运行它。
- 使用语料库查看器查看文本。 重要:要分析的文本需要以文本格式保存在文件夹或其子文件夹中。 检查每个文件,看看句子拼写是否正确。 对文本进行必要的修改,使其看起来更干净。
- 关闭查看器并运行CohMetrix。 单击工作文件夹按钮。
- 系统将要求您选择语料库文件夹。
- 选中后,请确保文件夹已选中,并返回到CohMetrix。
- 在“CohMetrix”中,单击“运行”按钮,输入要保存结果的文件名。 完成后,应用程序应该开始处理文本。
- 一旦它开始运行,你就会看到进度。如果您发现文本需要很长时间来处理,您可以停止工具并检查文本,看看文本是否有任何问题。
- 如果您重新运行该工具以继续该过程,请记住使用相同的文件名来保存结果,以便文本不会被重新处理。
Coh-Metrix 3.0输出文件中的指标说明
Coh-Metrix 3.0中的指标分为11组:(1)描述性的,(2)文本易读性主成分分数,(3)指代衔接,(4)LSA,(5)词汇多样性,(6)连接词,(7)情景模式,(8)句法复杂性,(9)句法模式密度,(10)词汇信息,和(11)可读性。
1. 描述性指标
Coh-Metrix提供描述性指标,以帮助用户检查Coh-Metrix的输出(例如,确保数字有意义),也可以解释数据的模式。提取的指标包括下面列出的那些。在当前版本的Coh-Metrix(3.0版)的输出中,所有这些指标前面都有DES,以表示它们是描述性措施。
段数(DESPC)(指标01)
这是文本中的总段数。段落只是用硬回车来划分。
句子的数量(DESSC)。(指标02)
是文本中的句子总数。句子由OpenNLP分句识别。
词的数量(DESWC)。(索引03)
这是文本中的总字数。字数是用Charniak分析器的输出计算的。对于每个句子,Charniak分析器都会生成一棵带有句子、短语、单词和标点符号的言语部分(POS)标签的分析树。解析树的叶子上的元素是被标记的词或标点符号。在Coh-Metrix中,单词取自句子解析树的叶子。
段落的平均长度(DESPL)。(指标04)
这是文本中每个段落的平均句子数。较长的段落可能更难处理
段落平均长度的标准偏差(DESPLd)。(指标05)
这是衡量文本内段落平均长度的标准偏差。在输出中,在指标名称的末尾使用d来指定它是一个标准差。一个大的标准差表明文本在段落长度方面有很大的变化,例如它可能有一些非常短的段落和一些非常长的段落。短文中出现的标题可以增加这一衡量标准的数值。
(DESSL)中句子的平均字数(长度)。(指标06)
这是文本中每个句子的平均字数,这里的字是指被Charniak分析器标记为语音部分的任何东西。字数多的句子可能有更复杂的语法,可能更难处理。虽然这是一个描述性的措施,但这也提供了一个常用的句法复杂性的代理。然而,Coh-Metrix提供了本章后面讨论的其他更精确的句法复杂性测量方法。
句子平均长度的标准偏差(DESSLd)。(指标07)
这是衡量文本内句子平均长度的标准偏差。大的标准差表明文本在句子长度方面有很大的变化,例如它可能有一些非常短的句子和一些非常长的句子。短文中出现的标题可能会影响这一衡量标准。叙事性文本也可能有句子长度的变化,因为作者从简短的人物话语到长的场景描述。
词汇中的平均音节数(长度)(DESWLsy)。(指标08)
Coh-Metrix计算出文本中所有单词的平均音节数。较短的单词更容易阅读,对单词长度的估计可以作为单词频率的一个常见代理。
词语中平均音节数的标准偏差(DESWLsyd)。(指标09)
这是衡量文本内单词平均音节数的标准偏差。大的标准差表明该文本在词的长度方面有很大的变化,例如它可能有短的和长的词。
词语中的平均字母数(长度)(DESWLlt)。(指标10)
这是文本中所有单词的平均字母数。较长的词往往频率较低,或对读者的熟悉程度较低。