Raki的nlp-begginer 提问

最新推荐文章于 2023-01-12 01:32:18 发布

爱睡觉的Raki

最新推荐文章于 2023-01-12 01:32:18 发布

阅读量1k

点赞数 1

分类专栏： nlp-beginner NLP 文章标签：机器学习深度学习人工智能神经网络自然语言处理

本文链接：https://blog.csdn.net/Raki_J/article/details/123350954

版权

NLP 同时被 2 个专栏收录

82 篇文章 10 订阅

订阅专栏

nlp-beginner

6 篇文章 4 订阅

订阅专栏

task1

logistic回归的公式？

在这里插入图片描述

softmax和logistic的异同点？

都用于分类，logistic是二分类，softmax是多分类，在类别为2时两者等价

logistic sigmoid函数的优缺点

优点：

1. 函数取值范围为（0,1）,具有概率意义
2. 求导简单
3. 单调递增

缺点：

1. 非0中心化，只有取值在0附近才高度敏感，广泛的饱和性

softmax的特点

相比argmax，它是可导的函数

解释下bag of words 和 n-gram，有什么缺陷

词袋模型
N-Gram是一种基于统计语言模型的算法。它的基本思想是将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度是N的字节片段序列。
每一个字节片段称为gram，对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。
该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram

交叉熵损失的作用，为什么不选择最小均方误差或者绝对值误差？

交叉熵用于衡量两个分布的差异，回归任务更适合最小均方误差

task2

RNN，LSTM，GRU的结构，为什么可以缓解长程依赖问题？

在这里插入图片描述

word embedding？Word2Vec，GloVe，还知道其他的词表征方式吗？（textrank，tf-idf，LSA，pLSA，ELMo，GPT，fastText，Bert，LDA）

史上最全词向量讲解（LSA/word2vec/Glove/FastText/ELMo/BERT）

task3

你对注意力机制的理解？

你输入一句话“春季男装男鞋”，这句话就是Q，你想要搜索而输入的东西，而K则是“春季男装男鞋”这句话里的关键词“春季、男装、男鞋”等，根据这个K搜索出来的结果就是V

注意力机制是一个加权表示，自注意力用自己的所有权重加权表示自己

软性注意力，硬性注意力

在这里插入图片描述

为什么缩放点积模型要除根号D_k？

在这里插入图片描述

textRNN？

卷积神经网络的核心思想是捕捉局部特征，对于文本来说，局部特征就是由若干单词组成的滑动窗口，类似于N-gram。卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选，获得不同抽象层次的语义信息

pooling层的作用是什么，average/sum pooling有什么特点

减小计算量
减小内存消耗
提高感受野大小
如果下一网络层的参数数量与特征图大小相关（例如全连接层），pooling可以减小参数个数
增加平移不变性

mean-pooling，即对邻域内特征点只求平均，max-pooling，即对邻域内特征点取最大。根据相关理论，特征提取的误差主要来自两个方面：

邻域大小受限造成的估计值方差增大
卷积层参数误差造成估计均值的偏移

一般来说，mean-pooling能减小第一种误差，更多的保留图像的背景信息，max-pooling能减小第二种误差，更多的保留纹理信息。Stochastic-pooling则介于两者之间，通过对像素点按照数值大小赋予概率，再按照概率进行亚采样，在平均意义上，与mean-pooling近似，在局部意义上，则服从max-pooling的准则

task4

CRF和HMM的异同点？（判别，生成）

如何用简单易懂的例子解释条件随机场（CRF）模型？它和HMM有什么区别？
如何轻松愉快地理解条件随机场（CRF）？

维特比算法

如何简单地理解维特比算法（viterbi算法）？

F1，精度，召回率？

在这里插入图片描述

AUC, ROC曲线？

【面试看这篇就够了】如何理解ROC与AUC

了解其他类型的NER任务吗？

平面NER，嵌套NER，不连续NER

task5

困惑度的公式，你怎么理解困惑度

惑度实际上是计算每一个单词得到的概率导数的几何平均，因此困惑度可以理解为平均分支系数（average branching factor），即模型预测下一个单词时的平均可选择的单词数量
在这里插入图片描述

有什么更好的评价语言模型的准则吗？

交叉熵
BLEU
在这里插入图片描述

了解GPT等大模型吗，为什么表现好

GPT-3参数规模已经接近人类神经元的数量，这说明它的表示能力已经接近人类了。但是它有个阿喀琉斯之踵——没有常识

综合问

实验结果如何，在metric上的得分，有没有尝试过别的模型，有什么改进的思路吗？

数据增强
选择更好的模型
调参

使用了什么损失函数，什么损失函数适用于什么任务？

交叉熵损失 - 多分类
均方误差 - 回归

使用了什么优化器，说一下各种优化器的原理

mini-batch SGD
Adam

使用了什么正则化方法，有哪些正则化方法？为什么可以起到正则化作用？

L1，L2正则化，L1会导稀疏特征，L2会将权重往原点拉
梯度剪裁，防止梯度过大的时候，参数一次性被“发射”出去很远，大幅度更新
提前停止，当验证集上metric得分不再上升的时候，提前停止可以防止模型过拟合
dropout，
标签平滑

过拟合欠拟合怎么解决？

过拟合：

增加正则化
减少模型参数
增加训练数据
对数据进行清洗，去噪

欠拟合：

增加数据量
数据增强
扩充模型容量
训练更多个epoch

验证集上的得分不再提高怎么办，继续训练会发生什么？

过拟合

了解transformer吗？bert？gpt？bert的衍生家族？

还知道NLP有哪些任务吗？

文本分类，序列标注，文本匹配，阅读理解，文本摘要，机器翻译，文本生成

有过科研经历吗？对科研有什么看法

各显神通

每个模型的结构，原理

各显神通

爱睡觉的Raki

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
Raki的nlp-begginer 提问

task1logistic回归的公式？softmax和logistic的异同点？logistic函数的缺点softmax的特点解释下bag of words 和 n-gram，有什么缺陷交叉熵损失的作用，为什么不选择最小均方误差或者绝对值误差？task2RNN，LSTM，GRU的结构，为什么可以缓解长程依赖问题？word embedding？Word2Vec，GloVe，还知道其他的词表征方式吗？（textrank，tf-idf，LSA，pLSA，ELMo，GPT，fastText，
复制链接

扫一扫

专栏目录