通过StanfordCoreNLP,可以实现对英文(或其它语言)的constituency parsing,也就是针对一句英文进行成分分析。
如,“Today is a sunny day.”的解析树为:
但是,当StanfordCoreNLP在加载英文的处理模型后,如果英文中掺杂着其它特殊语言,得到的解析树可能就不正确了。
如,“Where the mantra is "oṃ yaṃ vāyuve namaḥ", what is the direction of the guardian?”的解析树如下。可以看出,这个解析树不太正确,或者说不太合适,因为右侧SBAR引导的整个树不应该与") (FW oṃ) (FW yaṃ) (FW vāyuve) (FW namaḥ) ('' "同处于一个名词词组。
为了解决上面出现的问题,也就是StanfordCoreNLP在加载英文模型后,无法处理其它特殊语言的情况。可以先采用一组特殊组合来替换特殊语言,如以"MMMMM"替换") (FW oṃ) (FW yaṃ) (FW vāyuve) (FW namaḥ) (''。在后续使用过程中,将替换为特殊字符即可。替换后,解析树如下: