算法刷题(1)

问题一:
当在文本数据中创建一个机器学习模型时,你创建了一个输入数据为 100K 的文献检索词矩阵(document-term matrix)。
下列哪些纠正方法可以用来减少数据的维度——
1. 隐狄利克雷分布(Latent Dirichlet Allocation)
2. 潜在语义索引(Latent Semantic Indexing)
3. 关键词归一化(Keyword Normalization)

A

只有 1

B

2、3

C

1、3

D

1、2、3

解析:

答案:D
所有的这些方法都可用于减少数据维度。

记录:LDA和LSI都属于主题模型,可以通过SVD矩阵分解的方式对高维数组进行降维。

问题二:
谷歌搜索特征——「Did you mean」,是不同方法相混合的结果。
下列哪种方法可能是其组成部分?
1. 用协同过滤模型(Collaborative Filtering model)来检测相似用户表现(查询)
2. 在术语中检查 Levenshtein 距离的模型
3. 将句子译成多种语言

A

1

B

2

C

1、2

D

1、2、3
答案:C
协同过滤可以用于检测人们使用的是何种模式,Levenshtein 用来测量术语间的距离。
问题三:
在处理自然结构的新闻性句子的时候,哪种基于语法的文本句法分析方法可以用于名词短语检测、动词短语检测、主语检测和宾语检测。

A

部分语音标注

B

依存句法分析(Dependency Parsing)和选取句法分析(Constituency Parsing)

C

Skip Gram 和 N-Gram 提取

D

连续性词包

解析:

答案:B
依存句法分析和选取句法分析可从文本中提取这些关系。

记录:语义依存分析 (Semantic Dependency Parsing, SDP),分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。 参考:链接

问题四:
在从文本数据中提取语境时,你遇到两个不同的句子:The tank is full of soldiers. The tank is full of nitrogen。
下面哪种措施可被用于句子中词意模糊的问题?

A

对比模糊词汇与近义词在词典上的定义

B

同指(Co-reference) 解决方案,使用先前句子中包含的正确词意解决模糊单词的含义。

C

使用句子的依存解析理解含义

解析:

答案:A
A 选项被称为 Lesk 算法,被用在词意模糊问题上,其他选择不对。
问题五:
协同过滤和基于内容的模型是两种流行的推荐引擎,在建立这样的算法中 NLP 扮演什么角色?

A

从文本中提取特征

B

测量特征相似度

C

为学习模型的向量空间编程特征

D

以上都是

解析:

答案:D
NLP 可用于文本数据相关的任何地方:特征提取、测量特征相似度、创造文本的向量特征。
问题六:
Word2vec 也包含预处理模型(preprocessing mode),它不属于深度神经网络。
下列关于 Word2vec 的说法哪些是正确的?

A

word2vec 的结构仅包括两层——连续性词包和 skip-gram 模型

B

连续性词包是浅层神经网络模型

C

Skip-gram 是深度神经网络模型

D

CBOW 和 Skip-gram 都是深度神经网络模型

E

以上表述全部正确

解析:

答案:D
Word2vec 包含连续性词包和 skip-gram 模型,都是深度神经网络。这个问题先记住答案吧,还有待验证。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值