本文由码农场 同步,最新版本请查看原文:http://www.hankcs.com/nlp/parsing/michael-collins-pcfg.html
Micheal Collins在Coursera上的自然语言处理公开课,第二次任务。自然语言中的歧义令人忍俊不禁,只要你或者你的模型脑洞足够大。语料库来自WSJ,但并不是乔姆斯基范式:因为乔姆斯基范式中一元rule必须是叶子节点,修正方案是折叠过长的路径:也不可能出现多于2元的rule,修正方案是将多余的分支统一移入右子树:assignment中附带的语料已经经过了上述修正处理,无需担心。语料格式被预处理为多级嵌套的json数组:二元——一元——整棵树——["S", [&quo...
继续阅读:码农场 » Michael Collins NLP公开课任务2 PCFG
原文链接:http://www.hankcs.com/nlp/parsing/michael-collins-pcfg.html