NLP基础
1. 梯度爆炸与梯度消失
- 梯度爆炸:反向传播中,随层数的增加,梯度>1,更新成指数级增加,导致网络不稳定
-
- 原因:初始权值设置过大
- 梯度消失:梯度<1且接近于0,更新缓慢或停止更新
-
- 原因:不合适的损失函数
解决方案:
- 预训练+微调
- 对梯度设置阈值
- 权重正则化,batch正则化
- 残差网络
- 更换损失函数、激活函数
2. Embedding
- one-hot简单易实现,但输入维度过大时,会导致矩阵过于稀疏
- 于是使用Embedding进行特征变维,放大核心的特征
- 例如:queen(皇后)= king(国王)- man(男人)+ woman(女人),使用Embedding更符合矩阵操作
3. TF-IDF
-
TF:词频(Term Frequency)
-
IDF:逆文档频率(Inverse Document Frequency)
-
TF-IDF:一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比
-
优点:简单快速,而且容易理解,更适用于关键特征选择、文本分类
-
缺点:有时候用词频来衡量文章中的一个词的重要性不够全面,有时候重要的词出现的可能不够多,而且这种计算无法体现位置信息,无法体现词在上下文的重要性(word2vec)
4. N-Gram
n-gram 是指的一段文本中 n 个连续词组成的片段。举例来说,在 a cute cat 中,1-gram 有 a, cute, cat 三个;2-gram 有 a cute, cute cat 两个;3-gram 只有 a cute cat 一个。