NLP技术精要-CSDN博客

本文链接：https://blog.csdn.net/weixin_42446330/article/details/86769442

问题一：
当在文本数据中创建一个机器学习模型时，你创建了一个输入数据为 100K 的文献检索词矩阵（document-term matrix）。
下列哪些纠正方法可以用来减少数据的维度——
1. 隐狄利克雷分布（Latent Dirichlet Allocation）
2. 潜在语义索引（Latent Semantic Indexing）
3. 关键词归一化（Keyword Normalization）

只有 1

2、3

1、3

1、2、3

解析：

答案：D
所有的这些方法都可用于减少数据维度。

记录：LDA和LSI都属于主题模型，可以通过SVD矩阵分解的方式对高维数组进行降维。

问题二：
谷歌搜索特征——「Did you mean」，是不同方法相混合的结果。
下列哪种方法可能是其组成部分？
1. 用协同过滤模型（Collaborative Filtering model）来检测相似用户表现（查询）
2. 在术语中检查 Levenshtein 距离的模型
3. 将句子译成多种语言

1、2

1、2、3

答案：C
协同过滤可以用于检测人们使用的是何种模式，Levenshtein 用来测量术语间的距离。

问题三：
在处理自然结构的新闻性句子的时候，哪种基于语法的文本句法分析方法可以用于名词短语检测、动词短语检测、主语检测和宾语检测。

部分语音标注

依存句法分析（Dependency Parsing）和选取句法分析（Constituency Parsing）

Skip Gram 和 N-Gram 提取

连续性词包

解析：

答案：B
依存句法分析和选取句法分析可从文本中提取这些关系。

记录：语义依存分析 (Semantic Dependency Parsing, SDP)，分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。参考：链接

问题四：
在从文本数据中提取语境时，你遇到两个不同的句子：The tank is full of soldiers. The tank is full of nitrogen。
下面哪种措施可被用于句子中词意模糊的问题？

对比模糊词汇与近义词在词典上的定义

同指（Co-reference) 解决方案，使用先前句子中包含的正确词意解决模糊单词的含义。

使用句子的依存解析理解含义

解析：

答案：A
A 选项被称为 Lesk 算法，被用在词意模糊问题上，其他选择不对。

问题五：
协同过滤和基于内容的模型是两种流行的推荐引擎，在建立这样的算法中 NLP 扮演什么角色？

从文本中提取特征

测量特征相似度

为学习模型的向量空间编程特征

以上都是

解析：

答案：D
NLP 可用于文本数据相关的任何地方：特征提取、测量特征相似度、创造文本的向量特征。

问题六：
Word2vec 也包含预处理模型（preprocessing mode），它不属于深度神经网络。
下列关于 Word2vec 的说法哪些是正确的？

word2vec 的结构仅包括两层——连续性词包和 skip-gram 模型

连续性词包是浅层神经网络模型

Skip-gram 是深度神经网络模型

CBOW 和 Skip-gram 都是深度神经网络模型

以上表述全部正确

解析：

答案：D
Word2vec 包含连续性词包和 skip-gram 模型，都是深度神经网络。这个问题先记住答案吧，还有待验证。

算法刷题（1）