问题一:
当在文本数据中创建一个机器学习模型时,你创建了一个输入数据为 100K 的文献检索词矩阵(document-term matrix)。
下列哪些纠正方法可以用来减少数据的维度——
1. 隐狄利克雷分布(Latent Dirichlet Allocation)
2. 潜在语义索引(Latent Semantic Indexing)
3. 关键词归一化(Keyword Normalization)
A
只有 1
B
2、3
C
1、3
D
1、2、3
解析:
答案:D
所有的这些方法都可用于减少数据维度。
记录:LDA和LSI都属于主题模型,可以通过SVD矩阵分解的方式对高维数组进行降维。
问题二:
谷歌搜索特征——「Did you mean」,是不同方法相混合的结果。
下列哪种方法可能是其组成部分?
1. 用协同过滤模型(Collaborative Filtering model)来检测相似用户表现(查询)
2. 在术语中检查 Levenshtein 距离的模型
3. 将句子译成多种语言
A
1
B
2
C
1、2
D
1、2、3
答案:C
协同过滤可以用于检测人们使用的是何种模式,Levenshtein 用来测量术语间的距离。
问题三:
在处理自然结构的新闻性句子的时候,哪种基于语法的文本句法分析方法可以用于名词短语检测、动词短语检测、主语检测和宾语检测。
A
部分语音标注
B
依存句法分析(Dependency Parsing)和选取句法分析(Constituency Parsing)
C
Skip Gram 和 N-Gram 提取
D
连续性词包
解析:
答案:B
依存句法分析和选取句法分析可从文本中提取这些关系。
记录:语义依存分析 (Semantic Dependency Parsing, SDP),分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。 参考:链接
问题四:
在从文本数据中提取语境时,你遇到两个不同的句子:The tank is full of soldiers. The tank is full of nitrogen。
下面哪种措施可被用于句子中词意模糊的问题?
A
对比模糊词汇与近义词在词典上的定义
B
同指(Co-reference) 解决方案,使用先前句子中包含的正确词意解决模糊单词的含义。
C
使用句子的依存解析理解含义
解析:
答案:A
A 选项被称为 Lesk 算法,被用在词意模糊问题上,其他选择不对。
问题五:
协同过滤和基于内容的模型是两种流行的推荐引擎,在建立这样的算法中 NLP 扮演什么角色?
A
从文本中提取特征
B
测量特征相似度
C
为学习模型的向量空间编程特征
D
以上都是
解析:
答案:D
NLP 可用于文本数据相关的任何地方:特征提取、测量特征相似度、创造文本的向量特征。
问题六:
Word2vec 也包含预处理模型(preprocessing mode),它不属于深度神经网络。
下列关于 Word2vec 的说法哪些是正确的?
A
word2vec 的结构仅包括两层——连续性词包和 skip-gram 模型
B
连续性词包是浅层神经网络模型
C
Skip-gram 是深度神经网络模型
D
CBOW 和 Skip-gram 都是深度神经网络模型
E
以上表述全部正确
解析:
答案:D
Word2vec 包含连续性词包和 skip-gram 模型,都是深度神经网络。这个问题先记住答案吧,还有待验证。