跑了几天才把人民日报的预料训练完,做词性标注的。
随手做了些测试,发现一个很faint的结果
每句测试语句的首个词的词性都被标注为"m"数词
无论实际应该是人名/地名/机构名/名称等等。
由于我的印象中,CRF的记忆力是很强的。
于是看了一下训练的预料,
发现所有预料的第一个词都是类似于
"19980101-01-001-001 CN m"的
原来这语料是新闻稿,首句都是表示时间的数词,所有语料都如此,难怪会出现这样的测试结果
跑了几天才把人民日报的预料训练完,做词性标注的。
随手做了些测试,发现一个很faint的结果
每句测试语句的首个词的词性都被标注为"m"数词
无论实际应该是人名/地名/机构名/名称等等。
由于我的印象中,CRF的记忆力是很强的。
于是看了一下训练的预料,
发现所有预料的第一个词都是类似于
"19980101-01-001-001 CN m"的
原来这语料是新闻稿,首句都是表示时间的数词,所有语料都如此,难怪会出现这样的测试结果