自然语言处理的难点:
1. the challenge:multiple ways to express,对于同一个意思有多种表达方式
2. the challenge:Ambiguity,一词多义,一个词在不同语境中表达的含义
how to solve ambiguity?
例: interest,没有任何语境下,按照三个意思的主观统计概率进行意思归类
a financial interest in IBM (有语境的条件下),有data输入->更新主管概率(认知),要考虑上下文处理,NLP context
Case Study:Machine Translation
机器翻译系统:
通过12对的翻译对,将未知句子进行翻译
1. 针对单个单词进行翻译,找到
问题点:
1. 慢(AI与模型,算法优化)
2. 语义的问题无法解决
3. 没考虑上下文
4. 语法不对,前后顺序问题
5. 规则统计
LM为Language Model,语言模型
翻译系统的实现思想分成两个步骤:
1. 中文分词后进行单个单词的翻译——翻译模型p(c|e)
2. 将翻译好的单词进行排列组合,通过语言模型选择最佳的组合作为翻译的结果——语言模型p(e)
缺点:
1. 计算量非常大,如果是一篇文章有100个单词 100!
复杂度较高