nlp难点
一个意思具有多种表达方式;而是一词多义(Ambiguity);
如何解决一词多义现象:在没有上下文(context)的情况下,可以主观判断一下;
搭建一个机器翻译系统:从语料库中匹配目标单词,其缺点在于:语法不对,速度慢可以通过AI的方法(模型)解决。如何保证语法的正确性:中文首先要分词,找到对应词,对词进行排列组合,将组合应用在模型(Language Model)上,得到一个概率,选最好的。其中的计算量特别大,采用算法解决。
Decoding algorithm and viterb algorithm(解决一个NP hard 问题). 综合考虑translation model 和 language model. P(c|e)和P(e) ~argmax(P(e)*P(c|e)。
decoding algorithm 给定语言模型,和翻译模型和f,判断argmax(P(e)*P(c|e)。
语言模型计算概率的方法:uni- gram 、bi_gram、tri-gram.N-gram.在于计算每个概率。p(x1,x2,x3,…) = p(x1)p(x2)…;
NLP关键技术
1,semantic(语义):
2,syntax(句子结构):依从分析
3, Morphology(单词):分词、词性分析、NER
- phonetics(语音)