NLP预备知识 1.语言学基础 2.机器学习/深度学习算法 pytorch 3.语言模型 计算概率 各单词为随机变量,计算全概率,转换为计算条件概率,转换为2(N)阶马尔可夫(只与该单词前两个单词有关)N越大频次越小区别力越大,N越小频次越大参数估计的可靠性越高 模型评估 度量:混乱度Perplexity 模型训练 词向量 4.序列标注Tagging 标注 词性(开放类,封闭类)–POS标注 问题:POS歧义,可能出现频次低但不能忽视 命名实体识别 难点:未登录词 5.句法分析Parsing 机器翻译,词序不同,树,旋转