1 教父马库斯
马库斯发现存在两大难题:可以用于研究的统计数据明显不够;其次,各国科学家因为使用的数据不同,论文里发表的结果无法互相比较。
马库斯比很多同行更早地发现了建立标准语料库在自然语言处理研究中的重要性。建立了数百个标准的语料库组织(LDC)。
马库斯的主张一贯是建立几个世界上最好的专业。而不是专业最齐全的系。
2 从宾夕法尼亚大学走出的精英们
2.1 柯林斯:追求
柯林斯成功的关键在于将文法分析的每一个细节都研究得很仔细。
2.2 布莱尔:简单才美
布莱尔的成名作是基于变换规则的机器学习方法。
1. 把每个拼音对应的汉字中最常见的找出来作为第一遍变换的结果,当然结果有不少错误。比如,“常识”可能被转换成“长识”;
2. 可以说是“去伪存真”,用计算机根据上下文,列举所有的同音字替换的规则。
3. “去粗存精”,将所有的规则应用到事先标识好的语料库中,挑出有用的,删除无用的。然后重复二三步,直到找不出有用的为止。