-
人工智能两大标志任务:计算机国际象棋和机器翻译
-
自然语言自动处理 归结为语言处理建模的问题
自然语言系统是一个不适定问题(例子)
对南京市长江大桥基于语义分词
南京市|长江大桥
南京|市长|江大桥
面对不适定问题,如何构建呢
解决思路:约束解集,限制输出为稳定解
- 分析模型:理性主义
用有限的规则+有限的词汇 =有文法的句子
问题:规则不全面,问题大到一定规模则难通过可拓展性的考验 - 概率统计模型:经验主义,数据驱动
问题:建模没有考虑到语句次之间存在大量的依存关系 远距离上下文语义依存关系。计算模型不稳定,微弱因素影响巨大。但像标注有主谓宾之类的标注层次结构的数据少 。
从数字到文字获取的不连续映射困难,数据量也需要很多吧? - 混合模型 :关键问题在于语感、语境和背景知识的表达与应用
文末附上一个机器翻译的笑话(可见)
The spirit is willing but the flesh is weak.(心有余而力不足)
翻译为俄文之后又翻译回中文
The Voltka is strong but the meat is rotten.(伏特加是浓的,肉却腐烂了)
文献出处:自然语言处理的计算模型 张钹 (清华大学计算机系,北京100084)