introduction
NLP=NLU+NLG
U understanding G generation
why nlp is harder than computer vision?
CV 所见即所得
文本->meaning
challenge: multiple ways to express the same meaning
ambiguity 一词多义
(1)how to solve ambiguity? learn from data 概率 语境
(2)data->更新认知
statistical machine translation
中文->分词->词典statistical analysis->broken english->按照一定算法变成英语
如何判断最合适的句子?
Language Model 判断你说的话有多大概率是人话
summary translation model + language model
O(2^n) NP hard级别
因此引入decoding 算法
Viterbi 算法 本质是DP动态规划
目标 maxEnglishP(English|Chinese)
其中translation model P(C|E)
language model P(E)
因此decoding algorithm 目标argmaxEnglishP(e)*P(c|e)
语言模型 N-gram model
N 意味着考虑前面n个和后面n个词的概率 马尔克夫-assumption 把过去很长时间的影响近似到较短时间的影响
NLP的应用场景
问答系统
方法1 基于检索的方法 根据语料库进一步处理。。。
情感分析
可能是NLP最早的落地应用
机器翻译 seq2seq
自动摘要 Text Summarization
聊天机器人
信息抽取 从非结构化文本中抽取结构化信息,使用领域最大的地方
NLP 关键技术
Semantic(语义分析) NLU 核心用来理解语言,最上层
Syntax(句子结构) 包括句法分析等内容->依赖语言 依存分析Dependency
Morphology->单词层面的技术 分词、POS词性标注、NER命名实体识别
Phonetics
Word Segmentation
Part of speech词性分析<— 特征分析中很重要
Named Entity Recognition
知识图谱价值在于把数据源窜起来,在上层进行应用
Parsing 句法分析 CYK算法
Dependency Parsing 依存分析 判断两两之间是否有关系
Relation Extraction 关系抽取