NLP自然语言处理期末复习练习题

期末考试整理的一些简单的练习题 

 选择题

1.政府部门利用NLP技术分析人们对某一事件、政策法规或社会现象的评论,实时了解百姓的态度,这属于NLP研究内容的()

A.信息检索

B.文本分类

C.信息过滤

D.自动文摘

答案:B

2.不属于NLP应用场景的是()

A.百度翻译

B.图灵机器人

C.微信语音转文字

D.数据挖掘

答案:D

3.中文NLP的基本流程由语料获取、()、文本向量化、模型构建、模型训练和模型评价6部分组成

A.语料预处理

B.中文分词

C.去停用词

D.词性标注

答案:A

4.在NLP虚拟环境中安装需要的程序包,并自动安装这个包的依赖项需要用到()

A.pip install package_name

B.conda install package_name

C.conda package_name

D.pip package_name

答案:B

5.不属于打开Jupyter Notebook方式的是()

A.直接在开始菜单栏中单击“Anaconda”下的”Jupyter Notebook”

B.在Anaconda Prompt中输入“jupyter notebook”

C.单击桌面上自动生成的Jupyter Notebook图标

D.首先打开某个文件夹,然后按住“shift”键并单击鼠标右键,在菜单中单击“在此书打开Powershell窗口”命令,这时会弹出命令行窗口,接着输入”jupyter notebook”命令即可

答案:C

6.语料库以语料库结构进行划分可分为()

A.通用语料库与专用语料库

B.平衡结构语料库与自然随机结构语料库

C.共时语料库与历时语料库

D.单媒体语料库与多媒体语料库

答案:B

7.构建或研究语料库的时候,一般应考虑代表性、结构性、平衡性、()4个特性

A.规模性

B.便捷性

C.安全性

D.高效性

答案:A

8.NLTK的安装步骤为()

A.安装NLP虚拟环境->安装NLTK->检查是否存在NLTK->下载NLTK数据包

B.安装NLTK->安装NLP虚拟环境->检查是否存在NLTK->下载NLTK数据包

C.安装NLP虚拟环境->安装NLTK->下载NLTK数据包->检查是否存在NLTK

D.下载NLTK数据包->安装NLP虚拟环境->安装NLTK->检查是否存在NLTK

答案:A

9.()函数用于搜索搭配词语

A.concordance

B.common_contexts

C.collocations

D.sorted

答案:C

10.()函数用于获取语料库中的文件

A.categories

B.raw

C,open(fileid)

D.fileids

答案:D

11.不属于常用的正则表达式函数的是()

A.match函数

B.search函数

C.findall函数

D.matplotlib函数

答案:D

12.”re.sub(‘自然语言处理’,”NLP”,text1)”表示的含义为()

A.将test1中的“自然语言处理”替换为“NLP”

B.将test1中的“NLP”替换为“自然语言处理”

C.找出test1中的“自然语言处理”

D.找出test1中的“NLP”

答案:A

13.竖线“|”用于对两个正则表达式进行“或”操作。如果A和B是正则表达式,那么A|B表示为()

A.匹配A和B一起出现的字符

B.匹配A或B中出现的任何字符

C.匹配A中出现的任何字符

D.匹配B中出现的任何字符

答案:B

14.美元货币符号“$”表示匹配字符串的()位置

A.结束

B.开始

C.中间

D.表示货币的字符串

答案:A

15.下列Python中的预定义字符描述正确的是()

A.\w:与\W反义,非数字、非字母和非字

B.\s:空白字符

C.\D:数字

D.\d:非数字

答案:B

16.不属于基于规则的分词方法的是()

A.正向最大匹配法

B.逆向最大匹配法

C.反向最大匹配法

D.双向最大匹配法

答案:C

17.不属于未登录词的是()

A.网络热门词语

B.人名、地名和组织机构名

C.化学试剂的名称

D.经典文学作品

答案:D

18.假设有语句序列{小孩,喜欢,在家,观看,动画片},估计这一语句的概率为(),假设语料库中总词数为6000,单词出现的次数如图:小孩(500)【351】喜欢(3000)【873】在家(1000)【792】观看(500)【170】动画片(1000)

A.0.004584

B.0.002223

C.0.004558

D.0.006587

答案:A

19.适合高阶n-gram模型的平滑方法为()

A.加1平滑

B.古德-图灵平滑

C.线性插值平滑

D.均值平滑

答案:C

20.不属于jieba分词步骤的是()

A.基于前缀词典快速扫描词图,搭建可能得分词结果的有向无环图,构成多条分词路径

B.统计每个出现在词头的位置状态的次数,得到初始概率;统计每种位置状态转移至另一种状态的次数,得到转移概率

C.采用动态规划法寻找最大概率路径,从右往左反向计算最大概率,以此类推,得到概率最大的分词路径,作为最终的分词结果。

D.采用HMM处理未登录词,借助模型中语句构成的四个状态B、M、E、S推导,最终利用维特比算法求解最优路径

答案:B

21.下列关于jieba词性标注的流程错误的是()

A.加载离线统计词典

B.构建前缀词典

C.构建无向无环图

D.计算最大概率路径

答案:C

22.不属于中文的实体边界识别变得更加有挑战性原因的是()

A.中文词数量繁多

B.中文词灵活多变

C.中文词的嵌套情况复杂

D.中文词存在简化表达现象

答案:A

23.CRF模型思想主要来源于()

A.无向图模型

B.最大熵模型

C.马尔科夫随机场

D.统计方法

答案:B

24.多分类问题中最经典打分模型是()

A.CRF模型

B.聚类模型

C.多项逻辑斯谛回归

D.神经网络模型

答案:C

25.下列关于特征函数的输出值是0或1的叙述正确的是()

A.0表示要标注序列不符合这个特征,1表示要标注序列符合这个特征

B.0表示要标注序列符合这个特征,1表示要标注序列不符合这个特征

C.0和1都表示要标注序列符合这个特征

D.0和1都表示要标注序列不符合这个特征

答案:A

26.要求关键词提取算法应具有的性质不包括()

A.可读性

B.高速性

C.简洁性

D.健壮性

答案:C

27.不属于关键词提取算法的是()

A.TF-IDF算法

B.TextRank算法

C.主题模型算法

D.关联算法

答案:D

28.TF-IDF算法的主要思想是()

A.字词的重要性随着它在文档中出现次数的增加而上升,随着它在语料库中出现频率的升高而下降

B.字词的重要性随着它在文档中出现次数的增加而下降,随着它在语料库中出现频率的升高而下降

C.字词的重要性随着它在文档中出现次数的增加而下降,随着它在语料库中出现频率的升高而上升

D.字词的重要性随着它在文档中出现次数的增加而上升,随着它在语料库中出现频率的升高而上升

答案:A

29.关于逆文档频率说法错误的是()

A.逆文档频率是一个词出现在文档集中文档频次的统计量

B.一个词在文档集中越少的文档中出现,说明这个词对文档的区分能力越强

C.一个词在文档集中越少的文档中出现,说明这个词对文档的区分能力越弱

D.逆文档频率统计量的计算公式为idf=log |D|/|{j:t d}|+1

答案:C

30.一篇文章在讲各式各样的水果及其功效,当“水果”这一关键词没有直接出现在文本中时,应该使用()

A.TF-IDF算法

B.TextRank算法

C.主题模型算法

D.PageRank算法

答案:C

31.独热表示的缺点不包括()

A.构造简单

B.维数过高

C.不可以保留语义

D.矩阵稀疏

答案:C

32.BOW模型其中一个缺点是()

A.可以保留语义

B.维数低

C.没有忽略文档的词语顺序

D.矩阵稀疏

答案:D

33.不属于分布式表示模型的是()

A.分类模型

B.LSA矩阵分解模型

C.PLSA潜在语义分析概率模型

D.Word2Vec模型

答案:A

34.下列关于Word2Vec模型说法正确的是()

A.得到的训练结果不能度量词与词之间的相似性

B.当这个模型训练好以后,需要用这个训练好的模型处理新的任务

C.真正需要的是这个模型通过训练数据所得的参数

D.Word2Vec模型其实就是简化的遗传算法模型

答案:C

35.DM模型与CBOW模型的区别为()

A.DM模型的输入包括上下文

B.DM模型预测目标词出现的概率

C.DM模型输入不仅包括上下文,而且还包括相应的段落

D.CBOW模型输入包括上下文

答案:C

36.不属于文本挖掘的基本技术分类的是()

A.文本信息抽取

B.文本分类

C.文本聚类

D.文本数据挖掘

答案:D

37.适用于样本容量较大的文本集合的文本分类算法是()

A.朴素贝叶斯算法

B.支持向量机算法

C.神经网络算法

D.K最近邻

答案:D

38.决策树算法的缺点是()

A.学习时间长,且效果不可保证

B.易出现过拟合,易忽略数据集属性的相关性

C.时空复杂度较高,样本容量较小或数据集偏斜时容易误分

D.对非线性问题没有通用解决方案

答案:B

39.对于满足正态分布的样本数据来说效果会很好,但是过于依赖初始聚类中心的算法是基于()的聚类算法

A.模型

B.网格

C.模糊

D.密度

答案:C

40.属于特征提取方法的是()

A.BOW模型

B.数据标准化

C.训练模型

D.模型融合

答案:A

41.情感分析的基础性工作是()

A.文本信息抽取

B.文本的主客观分类

C.情感分类

D.情感极性判断

答案:A

42.基于机器学习的情感分类,关键在于特征选择、()、分类模型

A.标记词性

B.特征提取

C.特征权重量化

D.情感极性判断

答案:C

43.不属于情感分析应用的是()

A.信息检索

B.远程通信

C.机器翻译

D.语音识别

答案:B

44.情感分析技术的核心问题是()

A.情感分类

B.信息预测

C.舆情分析

D.文本抽取

答案:A

45.基于LDA主题模型的文本情感分析不包括()

A.文本转换

B.主题提取和情感词提取

C.主题情感摘要生成

D.系统评测

答案:A

46.RNN适用于处理视频、语音、文本等与时序相关的问题,其常见的应用领域不包括()

A.图像处理

B.视频剪辑

C.语音识别

D.文本相似度计算

答案:D

47.RNN经典结构的输入和输出的序列长度为()

A.多对一

B.一对多

C.等长的多对多

D.非等长的多对多

答案:C

48.下列关于双向RNN结构说法正确的是()

A.只考虑预测词前面的词,并没有考虑该词后面的内容

B.不仅从前往后保留该词前面的词的信息,而且还从后往前保留该词后面的词的信息

C.不是由两个RNN上下叠加在一起组成

D.输出与隐藏层的状态无关

答案:B

49.下列关于LSTM说法不正确的是()

A.通过改进使RNN具备避免梯度消失的特性

B.LSTM只能够刻画出输入数据中的短距离的相关信息,不能够捕捉到具有较长时间间隔的依赖关系

C.LSTM神经网络模型使用门结构实现了对序列数据中的遗忘与记忆

D.使用大量的文本序列数据对LSTM模型训练后,可以捕捉到文本词的依赖关系,训练好的模型就可以根据指定的文本生成后序的内容

答案:B

50.TensorFlow的特点不包括()

A.高速性

B.性能最优化

C.多语言支持

D.可移植性

答案:A

51.问答系统流程由问题理解、()、答案生成3个部分组成

A.词性标注

B.关键词提取

C.问题分类

D,知识检索

答案:D

52.关键词提取最简单、最直观的方法是()方法,用于识别定义类查询的句子

A.词性标注

B.命名实体识别

C.基于规则的匹配方法

D.文本分类

答案:C

53.不属于基于Seq2Seq模型的聊天机器人的实现流程的是()

A.读取语料库

B.绘画建模

C.抽取数据中的问题与回答

D.添加Attention机制

答案:B

54.对原始的语料文件进行预处理时要进行()

A.抽取数据中的问题与回答

B.构建词典

C.模型训练

D.模型测试

答案:B

55.聊天机器人模型的优化方法是()

A.损失函数

B.优化器

C.自适应梯度法

D.神经网络

答案:C

 判断题

56.自然语言处理(NLP)主要关注的是让计算机能够理解和生成人类语言。

答案:正确

57. 词袋模型(Bag of Words)在处理文本时,考虑了单词之间的顺序信息。

答案:错误
解析:词袋模型忽略了单词之间的顺序。

58. 词嵌入(Word Embedding)技术如Word2Vec可以捕捉单词之间的语义关系。

答案:正确

59. 在命名实体识别(NER)任务中,实体通常指的是人名、地名、组织名等

答案:正确

60. 文本分类任务中,朴素贝叶斯(Naive Bayes)通常比深度学习模型表现更好。

答案:错误

解析:这取决于具体的应用和数据集,但在许多情况下,深度学习模型可以取得更好的性能。

61. 依存句法分析(Dependency Parsing)的目标是识别句子中单词之间的语法关系。

答案:正确

62. 语言模型(Language Model)的主要任务是预测文本序列中的下一个单词或字符。

答案:正确

63. 情感分析(Sentiment Analysis)通常只涉及对文本表达的情感(如正面、负面或中性)进行分类。

答案:错误

解析:虽然这是情感分析的一个主要任务,但也可以包括更细粒度的情感分类,如情绪识别等。

64. 机器翻译(Machine Translation)任务中,翻译的准确性通常比流畅性更重要。

答案:错误

解析:在机器翻译中,翻译结果的准确性和流畅性通常都需要考虑,而且两者的相对重要性可能因应用而异。

65. 文本摘要(Text Summarization)技术可以生成与原文长度相同的摘要。

答案:错误

解析:文本摘要的目的是生成一个比原文更短的摘要,同时保留原文的主要信息。

66. One-hot编码中,随着语料库的增加,词向量的维数会线性增加,这可能导致维数灾难。

答案:正确

67. TF-IDF算法只考虑了词的出现频次和出现文档的个数,对文本内容的利用程度较低。

答案:正确

68. Word2Vec模型是一种复杂化的神经网络模型,用于学习词的分布式表示。

答案:正确

69. 神经网络优化器AdaGrad对低频的参数做较大的更新,对高频的做较小的更新。

答案:正确

70. 停用词(Stop Words)在自然语言处理中通常被忽略,因为它们对文本的意义贡献不大。

答案:正确

71. 在所有主题模型中,每个文档都仅包含一个主题。

答案:错误

解析:在主题模型中,一个文档通常可以包含多个主题。例如,在LDA(Latent Dirichlet Allocation)模型中,每个文档被视为一个主题的混合体,而每个主题则是一组词的分布。

72. 情感分析的主要内容包括主客观分类、情感分类和词性标注。

答案:错误

解析:情感分析的主要内容包括主客观分类和情感分类,但词性标注通常不被认为是情感分析的核心内容。词性标注是对文本中的词进行词性判断的过程,是自然语言处理中的一项基础任务。

73. TF-IDF算法中,字词的重要性随着它在文档中出现次数的增加而上升。

答案:错误

解析:TF-IDF算法中,字词的重要性确实与其在文档中的出现次数(TF)有关,但同时还受到它在整个语料库中的出现频率(IDF)的影响。IDF的作用是对TF进行校正,以防止过于频繁的词(如停用词)被赋予过高的权重。

74. 词干提取(Stemming)和词形还原(Lemmatization)是自然语言处理中用于减少词汇多样性的两种主要技术。

答案:正确

75. 自然语言处理中的文本分类任务只涉及二分类问题。

答案:错误

解析:自然语言处理中的文本分类任务可以涉及二分类问题(如垃圾邮件识别),也可以涉及多分类问题(如情感分析中的积极、消极和中性分类)以及更复杂的类重叠分类问题(如主题分析)。

填空题 

76.NLP机制涉及两个流程:()和()

答案:自然语言理解|自然语言生成

77.写出NLP研究内容包含的分支领域()()()()()()()()()()

答案:机器翻译|信息检索|文本分类|智能问答|信息过滤|自动文摘|信息抽取|舆情分析|语音识别|自动校对

78.NLP的4个应用场景:()()()()

答案:百度翻译|图灵机器人|微信语音转文字|新闻自动分类

79.在NLP的几十年发展中,从基于()方法到基于()方法再到现在的基于()的方法

答案:简单的规则|统计学|深度学习神经网络

80.NLP的基本流程由6部分组成:()()()()()()

答案:语料获取|语料预处理|文本向量化|模型构建|模型训练|模型评价

81.常见语料预处理的四个方法:去除数据中非文本内容、()、()、()

答案:中文分词|词性标注|去停用词

82.NLP中使用的模型包括机器学习模型和深度学习模型。常用的机器学习模型有:()、()、Naïve Bayes、决策树、()等,常用的深度模型有()、()、()、()、FastText、TextCNN等

答案:KNN|SVM|K-means|RNN|CNN|LSTM|Seq2Seq

83.模型训练过程中要注意两个问题,分别是过拟合问题和()问题。前者是指在训练集上表现很(),但在测试集上表现很();后者是模型不能很好的拟合数据。同时还要避免模型出现()和()的问题。

答案:欠拟合|好|差|梯度消失|梯度爆炸

84.模型的评价指标主要有()率、()率、召回率、F1值、ROC曲线、AUC曲线等

答案:准确|精确

85.语料库的用途包括以下4个方面:用于()、用于编写工具参考书籍、用于语言教学、用于()

答案:语言研究|NLP

86.以语料库的结构进行划分,可将语料库分为()和();以语料库用途进行划分,可将语料库分为()和();以语料选取时间进行划分,可将语料库分为()和()

答案:平衡结构语料库|自然随机结构语料库|通用语料库|专用语料库|共时语料库|历时语料库

87.语料库的构建原则一般考虑一下4个:()()()()

答案:代表性|结构性|平衡性|规模性

88.英文句号“.”表示();中括号“[ ]”表示();竖线“|”用于();乘方符号“^”表示();美元货币符号”$”表示();量化符有()()()()()()

答案:匹配除换行符“\n”之外的任意一个字符|匹配多个字符|对两个正则表达式进行“或”操作|匹配字符串起始位置的内容|匹配字符串的结束位置的内容|?|*|+|{n}|{n,}|{n,m}

89.”A.+?B”表示(),“A.*?B”表示();()+“.*?”表示()

答案:匹配”A”开头、“B”结尾且中间至少带有一个字符的内容|匹配“A”开头、“B”结尾且中间允许不带其他字符的内容|提取

90.中文分词技术有基于()分词和基于()分词

答案:规则|统计

91.马尔可夫假设ω1 出现的概率只与前面N-1个词相关,当N=n时,该统计语音模型称为()模型,N=1时称为()模型,N=2时称为()模型,N=3时称为()模型

92.常用的数据平滑方法有()()()

答案:加1平滑|古德-图灵平滑|线性插值平滑

93.解决多阶段决策最优化问题的方法称为()

答案:动态规划法

94.维特比算法就是用()法来求解HMM的预测问题的,即用其求概率最大路径。

答案:动态规划

95.维特比算法的五个步骤分别是()()()()()

答案:初始化|递推计算|记忆回退路径|终止|路径回溯

96.jieba分词支持精确模式、()模式、()模式

答案:全|搜索引擎

97.命名实体识别是指()

答案:文本中具有特别意义或指代性非常强的实体

98.命名实体可分为()()()3大类,以及人名、机构名、地点、时间、日期、货币和百分比7小类。

答案:实体类|时间类|数字类

99.中文实体识别的挑战性主要表现在以下三个方面:()()()

答案:中文词灵活多变|中文词的嵌套情况复杂|中文词存在简化表达现象

100.命名实体识别中最常用、最基本的3个统计模型是:()()(),它们出现按先后顺序是(HMM、MEMM、CRF)

答案:HMM|最大熵马尔可夫模型|条件随机场

101.CRF模型思想主要来源于()

答案:最大熵模型

102.关键词提取系统的实用性主要表现在以下4个方面()()()()

答案:可读性|高速性|学习性|健壮性

103.常见的关键词提取算法有()()()其中主题模型算法主要包括()()

答案:TF-IDF算法|TextRank算法|主题模型算法|LSA|LDA

104.TF-IDF算法由()()两部分组成

答案:词频|逆文档频率

105.关键词提取技术有()()()()

答案:TF-IDF算法|TextRank算法|LSA算法|LDA算法

106.文本向量化主要有()表示和()表示两种。前者有()表示和()模型以及()表示。后者有()模型(其包含()模型和()模型)、()模型(其包括()模型)和()模型)

答案:离散|分布式|独热|BOW|TF-IDF|Word2Vec|CBOW|Skip_Gram|Doc2Vec|DM|DBOW

107.Doc2Vec技术从()技术扩展而来,DM模型与()模型相对应

答案:Word2Vec|CBOW

108.RNN结构按输入和输出的序列长度可划分为()()和()3种结构

答案:多对一|等长的多对多|非等长

109.LSTM是RNN的一种变形,是为了克服RNN无法很好处理()而提出的。LSTM网络通过()克服梯度爆炸问题

答案:长距离依赖|梯度剪裁技术

110.非等长结构即()模型,主要用于解决()问题。最基础的包含3个部分,分别为()()()

答案:编码器|解码器|连接两者的中间状态向量C

解答题 

111.请写出以下缩写的全称:NLP,NER,TF-IDF,LSA,LDA,BOW,CBOW,DBOW,RNN

答案:Natural Language Processing|Named Entity Recognition|Term Frequency-Inverse Document Frequency|Latent Semantic Analysis|Latent Dirichlet Allocation|Bag of Words|Continuous Bag-of-Words|Distributed Bag of Words|Recurrent Neural Network

112.Pip install 和conda install的区别是什么?

答案:pip install命令只会安装需要安装的包本身,而“conda install”命令除了会安装需要安装的包,还会自动安装这个包的依赖项

113. 请写出以下NLTK函数的作用:【similar】【concordance】【collocations】【common_text】【set】【sorted】【FreqDist】

答案:similar:搜索相似词语;concordance:搜索指定内容;collocations:搜索搭配词语;common_texts:搜索词的共同上下文;set:获取文本词汇表;sorted:排序;FreqDist:查询文本中的词汇频数分布。:

114.请写出以下基本语料库函数的作用:【fileids()】【categories()】【raw()】【words()】【sents()】【open(fileid)】【root()】【readme()】

答案:fileids():获取语料库中的文件;categories():语料库中的分类;raw():语料库的原始内容;words():查找整个语料库中的词汇;sents():指定分类中的句子;open(fileid):打开指定语料库文件的文件流;root():到本地安装的语料库根目录的路径;readme():语料库中的README文件的内容

115.请写出以下正则表达式函数的作用:【match函数】【search函数】【findall函数】【sub函数】

答案:match函数:用于检测字符串开头部分是否匹配,若匹配成功则返回结果,否则返回None;search函数:用于在整个字符串内查找符合对应模式的字符串并进行匹配,找到第一个匹配对象后返回一个包含匹配信息的对象,如果没有则返回None;findall函数:返回的是正则表达式在字符串中所有匹配结果的列表;sub函数:替换函数,能够找到所有匹配的字符串并将其替换成指定的字符串。

116.请用自己的语言描述正向最大匹配法和逆向最大匹配法

答案:正向最大匹配法:假设一个带分词中文文本和一个分词词典,词典中最长字符串的长度是l,从左至右切分待分词文本的前l个字符,然后在词典中查找是否有一样的字符串。若匹配失败,则删去该字符串的最后一个字符,仅留下前l-1个字符,继续匹配以此类推,匹配成功那么被切分下来的第二个文本成为新的待分词文本,重复以上操作直至匹配完毕。逆向最大匹配法与正向最大匹配法原理相反。

117.请说明HMM和条件随机场的区别

答案:HMM假设每个时刻的状态只与前一时刻的状态有关,而条件随机场假设每一时刻的状态还与后一时刻的状态有关。

118.TF-IDF的主要思想是?

答案:字词的重要性随着它在文档中出现次数的增加而上升,并随着它在语料库中出现频率的升高而下降

119.请描述主题模型算法?常见的主题模型算法有?所有主题模型算法都基于哪两个相同的基本假设?

答案:主题模型算法是在大量文档中发现潜在主题的一种统计模型。潜在语义分析、概率潜在语义分析、潜在狄利克雷分布以及深度学习的lda2vec。1)每个文档包含多个主题2)每个主题包含多个词

120.循环神经网络是一种什么样的神经网络?

答案:RNN是一类以序列数据为输入,在序列的演进方向进行递归,并且所有节点按链式连接的递归神经网络。

121.请用自己的话描述TensorFlow.

答案:TensorFlow是一个使用数据流图进行数值计算的开源软件库。它的优点有:高度的灵活性、可移植性、综合了科研和产品、自动计算梯度导数、性能最优化、多语言支持。

122.请用自己的话描述Keras

答案:Keras具有简易和快速的原型设计、支持CNN与RNN以及能够无缝在CPU和GPU间切换的优点。

123.假设语句序列s={小孩,喜欢,在家,观看,动画片},估计这一语句的概率。假设语料库的总词数为7542个,单词出现的次数如下所示:小孩(500)【351】喜欢(3208)【873】在家(987)【792】观看(801)【170】动画片(2046)

答案:p(s)=p(小孩,喜欢,在家,观看,动画片)=p(小孩)p(喜欢|小孩)p(在家|喜欢)p(观看|在家)p(动画片|观看) = (500/7542)*(351/500)*(873/3208)*(792/987)*(170/801) 0.2122347,因此语句s在当前语料库中出现的概率约为0.2122347

123.请写出独热表示、BOW的缺点

独热:1)维数过高  2)矩阵稀疏  3)不能保留语义

BOW:1)不能保留语义  2)维数高和稀疏性

#成都东软学院

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值