NLP自然语言处理期末复习练习题

最新推荐文章于 2024-09-20 11:01:48 发布

ddivi

最新推荐文章于 2024-09-20 11:01:48 发布

阅读量3.1k

点赞数 46

分类专栏：复习资料文章标签：自然语言处理人工智能 nlp

本文链接：https://blog.csdn.net/lili_DSY/article/details/140071294

版权

复习资料专栏收录该内容

3 篇文章 1 订阅

订阅专栏

期末考试整理的一些简单的练习题

选择题

1.政府部门利用NLP技术分析人们对某一事件、政策法规或社会现象的评论，实时了解百姓的态度，这属于NLP研究内容的（）

A.信息检索

B.文本分类

C.信息过滤

D.自动文摘

答案：B

2.不属于NLP应用场景的是（）

A.百度翻译

B.图灵机器人

C.微信语音转文字

D.数据挖掘

答案：D

3.中文NLP的基本流程由语料获取、（）、文本向量化、模型构建、模型训练和模型评价6部分组成

A.语料预处理

B.中文分词

C.去停用词

D.词性标注

答案：A

4.在NLP虚拟环境中安装需要的程序包，并自动安装这个包的依赖项需要用到（）

A.pip install package_name

B.conda install package_name

C.conda package_name

D.pip package_name

答案：B

5.不属于打开Jupyter Notebook方式的是（）

A.直接在开始菜单栏中单击“Anaconda”下的”Jupyter Notebook”

B.在Anaconda Prompt中输入“jupyter notebook”

C.单击桌面上自动生成的Jupyter Notebook图标

D.首先打开某个文件夹，然后按住“shift”键并单击鼠标右键，在菜单中单击“在此书打开Powershell窗口”命令，这时会弹出命令行窗口，接着输入”jupyter notebook”命令即可

答案：C

6.语料库以语料库结构进行划分可分为（）

A.通用语料库与专用语料库

B.平衡结构语料库与自然随机结构语料库

C.共时语料库与历时语料库

D.单媒体语料库与多媒体语料库

答案：B

7.构建或研究语料库的时候，一般应考虑代表性、结构性、平衡性、（）4个特性

A.规模性

B.便捷性

C.安全性

D.高效性

答案：A

8.NLTK的安装步骤为（）

A.安装NLP虚拟环境->安装NLTK->检查是否存在NLTK->下载NLTK数据包

B.安装NLTK->安装NLP虚拟环境->检查是否存在NLTK->下载NLTK数据包

C.安装NLP虚拟环境->安装NLTK->下载NLTK数据包->检查是否存在NLTK

D.下载NLTK数据包->安装NLP虚拟环境->安装NLTK->检查是否存在NLTK

答案：A

9.（）函数用于搜索搭配词语

A.concordance

B.common_contexts

C.collocations

D.sorted

答案：C

10.（）函数用于获取语料库中的文件

A.categories

B.raw

C,open(fileid)

D.fileids

答案：D

11.不属于常用的正则表达式函数的是（）

A.match函数

B.search函数

C.findall函数

D.matplotlib函数

答案：D

12.”re.sub(‘自然语言处理’，”NLP”，text1)”表示的含义为（）

A.将test1中的“自然语言处理”替换为“NLP”

B.将test1中的“NLP”替换为“自然语言处理”

C.找出test1中的“自然语言处理”

D.找出test1中的“NLP”

答案：A

13.竖线“|”用于对两个正则表达式进行“或”操作。如果A和B是正则表达式，那么A|B表示为（）

A.匹配A和B一起出现的字符

B.匹配A或B中出现的任何字符

C.匹配A中出现的任何字符

D.匹配B中出现的任何字符

答案：B

14.美元货币符号“$”表示匹配字符串的（）位置

A.结束

B.开始

C.中间

D.表示货币的字符串

答案：A

15.下列Python中的预定义字符描述正确的是（）

A.\w：与\W反义，非数字、非字母和非字

B.\s：空白字符

C.\D：数字

D.\d：非数字

答案：B

16.不属于基于规则的分词方法的是（）

A.正向最大匹配法

B.逆向最大匹配法

C.反向最大匹配法

D.双向最大匹配法

答案：C

17.不属于未登录词的是（）

A.网络热门词语

B.人名、地名和组织机构名

C.化学试剂的名称

D.经典文学作品

答案：D

18.假设有语句序列{小孩，喜欢，在家，观看，动画片}，估计这一语句的概率为（），假设语料库中总词数为6000，单词出现的次数如图：小孩（500）【351】喜欢（3000）【873】在家（1000）【792】观看（500）【170】动画片（1000）

A.0.004584

B.0.002223

C.0.004558

D.0.006587

答案：A

19.适合高阶n-gram模型的平滑方法为（）

A.加1平滑

B.古德-图灵平滑

C.线性插值平滑

D.均值平滑

答案：C

20.不属于jieba分词步骤的是（）

A.基于前缀词典快速扫描词图，搭建可能得分词结果的有向无环图，构成多条分词路径

B.统计每个出现在词头的位置状态的次数，得到初始概率；统计每种位置状态转移至另一种状态的次数，得到转移概率

C.采用动态规划法寻找最大概率路径，从右往左反向计算最大概率，以此类推，得到概率最大的分词路径，作为最终的分词结果。

D.采用HMM处理未登录词，借助模型中语句构成的四个状态B、M、E、S推导，最终利用维特比算法求解最优路径

答案：B

21.下列关于jieba词性标注的流程错误的是（）

A.加载离线统计词典

B.构建前缀词典

C.构建无向无环图

D.计算最大概率路径

答案：C

22.不属于中文的实体边界识别变得更加有挑战性原因的是（）

A.中文词数量繁多

B.中文词灵活多变

C.中文词的嵌套情况复杂

D.中文词存在简化表达现象

答案：A

23.CRF模型思想主要来源于（）

A.无向图模型

B.最大熵模型

C.马尔科夫随机场

D.统计方法

答案：B

24.多分类问题中最经典打分模型是（）

A.CRF模型

B.聚类模型

C.多项逻辑斯谛回归

D.神经网络模型

答案：C

25.下列关于特征函数的输出值是0或1的叙述正确的是（）

A.0表示要标注序列不符合这个特征，1表示要标注序列符合这个特征

B.0表示要标注序列符合这个特征，1表示要标注序列不符合这个特征

C.0和1都表示要标注序列符合这个特征

D.0和1都表示要标注序列不符合这个特征

答案：A

26.要求关键词提取算法应具有的性质不包括（）

A.可读性

B.高速性

C.简洁性

D.健壮性

答案：C

27.不属于关键词提取算法的是（）

A.TF-IDF算法

B.TextRank算法

C.主题模型算法

D.关联算法

答案：D

28.TF-IDF算法的主要思想是（）

A.字词的重要性随着它在文档中出现次数的增加而上升，随着它在语料库中出现频率的升高而下降

B.字词的重要性随着它在文档中出现次数的增加而下降，随着它在语料库中出现频率的升高而下降

C.字词的重要性随着它在文档中出现次数的增加而下降，随着它在语料库中出现频率的升高而上升

D.字词的重要性随着它在文档中出现次数的增加而上升，随着它在语料库中出现频率的升高而上升

答案：A

29.关于逆文档频率说法错误的是（）

A.逆文档频率是一个词出现在文档集中文档频次的统计量

B.一个词在文档集中越少的文档中出现，说明这个词对文档的区分能力越强

C.一个词在文档集中越少的文档中出现，说明这个词对文档的区分能力越弱

D.逆文档频率统计量的计算公式为idf=log |D|/|{j:t∈ d}|+1

答案：C

30.一篇文章在讲各式各样的水果及其功效，当“水果”这一关键词没有直接出现在文本中时，应该使用（）

A.TF-IDF算法

B.TextRank算法

C.主题模型算法

D.PageRank算法

答案：C

31.独热表示的缺点不包括（）

A.构造简单

B.维数过高

C.不可以保留语义

D.矩阵稀疏

答案：C

32.BOW模型其中一个缺点是（）

A.可以保留语义

B.维数低

C.没有忽略文档的词语顺序

D.矩阵稀疏

答案：D

33.不属于分布式表示模型的是（）

A.分类模型

B.LSA矩阵分解模型

C.PLSA潜在语义分析概率模型

D.Word2Vec模型

答案：A

34.下列关于Word2Vec模型说法正确的是（）

A.得到的训练结果不能度量词与词之间的相似性

B.当这个模型训练好以后，需要用这个训练好的模型处理新的任务

C.真正需要的是这个模型通过训练数据所得的参数

D.Word2Vec模型其实就是简化的遗传算法模型

答案：C

35.DM模型与CBOW模型的区别为（）

A.DM模型的输入包括上下文

B.DM模型预测目标词出现的概率

C.DM模型输入不仅包括上下文，而且还包括相应的段落

D.CBOW模型输入包括上下文

答案：C

36.不属于文本挖掘的基本技术分类的是（）

A.文本信息抽取

B.文本分类

C.文本聚类

D.文本数据挖掘

答案：D

37.适用于样本容量较大的文本集合的文本分类算法是（）

A.朴素贝叶斯算法

B.支持向量机算法

C.神经网络算法

D.K最近邻

答案：D

38.决策树算法的缺点是（）

A.学习时间长，且效果不可保证

B.易出现过拟合，易忽略数据集属性的相关性

C.时空复杂度较高，样本容量较小或数据集偏斜时容易误分

D.对非线性问题没有通用解决方案

答案：B

39.对于满足正态分布的样本数据来说效果会很好，但是过于依赖初始聚类中心的算法是基于（）的聚类算法

A.模型

B.网格

C.模糊

D.密度

答案：C

40.属于特征提取方法的是（）

A.BOW模型

B.数据标准化

C.训练模型

D.模型融合

答案：A

41.情感分析的基础性工作是（）

A.文本信息抽取

B.文本的主客观分类

C.情感分类

D.情感极性判断

答案：A

42.基于机器学习的情感分类，关键在于特征选择、（）、分类模型

A.标记词性

B.特征提取

C.特征权重量化

D.情感极性判断

答案：C

43.不属于情感分析应用的是（）

A.信息检索

B.远程通信

C.机器翻译

D.语音识别

答案：B

44.情感分析技术的核心问题是（）

A.情感分类

B.信息预测

C.舆情分析

D.文本抽取

答案：A

45.基于LDA主题模型的文本情感分析不包括（）

A.文本转换

B.主题提取和情感词提取

C.主题情感摘要生成

D.系统评测

答案：A

46.RNN适用于处理视频、语音、文本等与时序相关的问题，其常见的应用领域不包括（）

A.图像处理

B.视频剪辑

C.语音识别

D.文本相似度计算

答案：D

47.RNN经典结构的输入和输出的序列长度为（）

A.多对一

B.一对多

C.等长的多对多

D.非等长的多对多

答案：C

48.下列关于双向RNN结构说法正确的是（）

A.只考虑预测词前面的词，并没有考虑该词后面的内容

B.不仅从前往后保留该词前面的词的信息，而且还从后往前保留该词后面的词的信息

C.不是由两个RNN上下叠加在一起组成

D.输出与隐藏层的状态无关

答案：B

49.下列关于LSTM说法不正确的是（）

A.通过改进使RNN具备避免梯度消失的特性

B.LSTM只能够刻画出输入数据中的短距离的相关信息，不能够捕捉到具有较长时间间隔的依赖关系

C.LSTM神经网络模型使用门结构实现了对序列数据中的遗忘与记忆

D.使用大量的文本序列数据对LSTM模型训练后，可以捕捉到文本词的依赖关系，训练好的模型就可以根据指定的文本生成后序的内容

答案：B

50.TensorFlow的特点不包括（）

A.高速性

B.性能最优化

C.多语言支持

D.可移植性

答案：A

51.问答系统流程由问题理解、（）、答案生成3个部分组成

A.词性标注

B.关键词提取

C.问题分类

D,知识检索

答案：D

52.关键词提取最简单、最直观的方法是（）方法，用于识别定义类查询的句子

A.词性标注

B.命名实体识别

C.基于规则的匹配方法

D.文本分类

答案：C

53.不属于基于Seq2Seq模型的聊天机器人的实现流程的是（）

A.读取语料库

B.绘画建模

C.抽取数据中的问题与回答

D.添加Attention机制

答案：B

54.对原始的语料文件进行预处理时要进行（）

A.抽取数据中的问题与回答

B.构建词典

C.模型训练

D.模型测试

答案：B

55.聊天机器人模型的优化方法是（）

A.损失函数

B.优化器

C.自适应梯度法

D.神经网络

答案：C

判断题

56．自然语言处理（NLP）主要关注的是让计算机能够理解和生成人类语言。

答案：正确

57. 词袋模型（Bag of Words）在处理文本时，考虑了单词之间的顺序信息。

答案：错误
解析：词袋模型忽略了单词之间的顺序。

58. 词嵌入（Word Embedding）技术如Word2Vec可以捕捉单词之间的语义关系。

答案：正确

59. 在命名实体识别（NER）任务中，实体通常指的是人名、地名、组织名等

答案：正确

60. 文本分类任务中，朴素贝叶斯（Naive Bayes）通常比深度学习模型表现更好。

答案：错误

解析：这取决于具体的应用和数据集，但在许多情况下，深度学习模型可以取得更好的性能。

61. 依存句法分析（Dependency Parsing）的目标是识别句子中单词之间的语法关系。

答案：正确

62. 语言模型（Language Model）的主要任务是预测文本序列中的下一个单词或字符。

答案：正确

63. 情感分析（Sentiment Analysis）通常只涉及对文本表达的情感（如正面、负面或中性）进行分类。

答案：错误

解析：虽然这是情感分析的一个主要任务，但也可以包括更细粒度的情感分类，如情绪识别等。

64. 机器翻译（Machine Translation）任务中，翻译的准确性通常比流畅性更重要。

答案：错误

解析：在机器翻译中，翻译结果的准确性和流畅性通常都需要考虑，而且两者的相对重要性可能因应用而异。

65. 文本摘要（Text Summarization）技术可以生成与原文长度相同的摘要。

答案：错误

解析：文本摘要的目的是生成一个比原文更短的摘要，同时保留原文的主要信息。

66. One-hot编码中，随着语料库的增加，词向量的维数会线性增加，这可能导致维数灾难。

答案：正确

67. TF-IDF算法只考虑了词的出现频次和出现文档的个数，对文本内容的利用程度较低。

答案：正确

68. Word2Vec模型是一种复杂化的神经网络模型，用于学习词的分布式表示。

答案：正确

69. 神经网络优化器AdaGrad对低频的参数做较大的更新，对高频的做较小的更新。

答案：正确

70. 停用词（Stop Words）在自然语言处理中通常被忽略，因为它们对文本的意义贡献不大。

答案：正确

71. 在所有主题模型中，每个文档都仅包含一个主题。

答案：错误

解析：在主题模型中，一个文档通常可以包含多个主题。例如，在LDA（Latent Dirichlet Allocation）模型中，每个文档被视为一个主题的混合体，而每个主题则是一组词的分布。

72. 情感分析的主要内容包括主客观分类、情感分类和词性标注。

答案：错误

解析：情感分析的主要内容包括主客观分类和情感分类，但词性标注通常不被认为是情感分析的核心内容。词性标注是对文本中的词进行词性判断的过程，是自然语言处理中的一项基础任务。

73. TF-IDF算法中，字词的重要性随着它在文档中出现次数的增加而上升。

答案：错误

解析：TF-IDF算法中，字词的重要性确实与其在文档中的出现次数（TF）有关，但同时还受到它在整个语料库中的出现频率（IDF）的影响。IDF的作用是对TF进行校正，以防止过于频繁的词（如停用词）被赋予过高的权重。

74. 词干提取（Stemming）和词形还原（Lemmatization）是自然语言处理中用于减少词汇多样性的两种主要技术。

答案：正确

75. 自然语言处理中的文本分类任务只涉及二分类问题。

答案：错误

解析：自然语言处理中的文本分类任务可以涉及二分类问题（如垃圾邮件识别），也可以涉及多分类问题（如情感分析中的积极、消极和中性分类）以及更复杂的类重叠分类问题（如主题分析）。

填空题

76.NLP机制涉及两个流程：（）和（）

答案：自然语言理解|自然语言生成

77.写出NLP研究内容包含的分支领域（）（）（）（）（）（）（）（）（）（）

78.NLP的4个应用场景：（）（）（）（）

答案：百度翻译|图灵机器人|微信语音转文字|新闻自动分类

79.在NLP的几十年发展中，从基于（）方法到基于（）方法再到现在的基于（）的方法

答案：简单的规则|统计学|深度学习神经网络

80.NLP的基本流程由6部分组成：（）（）（）（）（）（）

81.常见语料预处理的四个方法：去除数据中非文本内容、（）、（）、（）

答案：中文分词|词性标注|去停用词

82.NLP中使用的模型包括机器学习模型和深度学习模型。常用的机器学习模型有：（）、（）、Naïve Bayes、决策树、（）等，常用的深度模型有（）、（）、（）、（）、FastText、TextCNN等

答案：KNN|SVM|K-means|RNN|CNN|LSTM|Seq2Seq

83.模型训练过程中要注意两个问题，分别是过拟合问题和（）问题。前者是指在训练集上表现很（），但在测试集上表现很（）；后者是模型不能很好的拟合数据。同时还要避免模型出现（）和（）的问题。

答案：欠拟合|好|差|梯度消失|梯度爆炸

84.模型的评价指标主要有（）率、（）率、召回率、F1值、ROC曲线、AUC曲线等

答案：准确|精确

85.语料库的用途包括以下4个方面：用于（）、用于编写工具参考书籍、用于语言教学、用于（）

答案：语言研究|NLP

86.以语料库的结构进行划分，可将语料库分为（）和（）；以语料库用途进行划分，可将语料库分为（）和（）；以语料选取时间进行划分，可将语料库分为（）和（）

87.语料库的构建原则一般考虑一下4个：（）（）（）（）

答案：代表性|结构性|平衡性|规模性

88.英文句号“.”表示（）；中括号“[ ]”表示（）；竖线“|”用于（）；乘方符号“^”表示（）；美元货币符号”$”表示（）；量化符有（）（）（）（）（）（）

答案：匹配除换行符“\n”之外的任意一个字符|匹配多个字符|对两个正则表达式进行“或”操作|匹配字符串起始位置的内容|匹配字符串的结束位置的内容|？|*|+|{n}|{n,}|{n,m}

89.”A.+?B”表示（），“A.*?B”表示（）；（）+“.*?”表示（）

答案：匹配”A”开头、“B”结尾且中间至少带有一个字符的内容|匹配“A”开头、“B”结尾且中间允许不带其他字符的内容|提取

90.中文分词技术有基于（）分词和基于（）分词

答案：规则|统计

91.马尔可夫假设ω1 出现的概率只与前面N-1个词相关，当N=n时，该统计语音模型称为（）模型，N=1时称为（）模型，N=2时称为（）模型，N=3时称为（）模型

92.常用的数据平滑方法有（）（）（）

答案：加1平滑|古德-图灵平滑|线性插值平滑

93.解决多阶段决策最优化问题的方法称为（）

答案：动态规划法

94.维特比算法就是用（）法来求解HMM的预测问题的，即用其求概率最大路径。

答案：动态规划

95.维特比算法的五个步骤分别是（）（）（）（）（）

答案：初始化|递推计算|记忆回退路径|终止|路径回溯

96.jieba分词支持精确模式、（）模式、（）模式

答案：全|搜索引擎

97.命名实体识别是指（）

答案：文本中具有特别意义或指代性非常强的实体

98.命名实体可分为（）（）（）3大类，以及人名、机构名、地点、时间、日期、货币和百分比7小类。

答案：实体类|时间类|数字类

99.中文实体识别的挑战性主要表现在以下三个方面：（）（）（）

答案：中文词灵活多变|中文词的嵌套情况复杂|中文词存在简化表达现象

100.命名实体识别中最常用、最基本的3个统计模型是：（）（）（），它们出现按先后顺序是（HMM、MEMM、CRF）

答案：HMM|最大熵马尔可夫模型|条件随机场

101.CRF模型思想主要来源于（）

答案：最大熵模型

102.关键词提取系统的实用性主要表现在以下4个方面（）（）（）（）

答案：可读性|高速性|学习性|健壮性

103.常见的关键词提取算法有（）（）（）其中主题模型算法主要包括（）（）

答案：TF-IDF算法|TextRank算法|主题模型算法|LSA|LDA

104.TF-IDF算法由（）（）两部分组成

答案：词频|逆文档频率

105.关键词提取技术有（）（）（）（）

答案：TF-IDF算法|TextRank算法|LSA算法|LDA算法

106.文本向量化主要有（）表示和（）表示两种。前者有（）表示和（）模型以及（）表示。后者有（）模型（其包含（）模型和（）模型）、（）模型（其包括（）模型）和（）模型）

107.Doc2Vec技术从（）技术扩展而来，DM模型与（）模型相对应

答案：Word2Vec|CBOW

108.RNN结构按输入和输出的序列长度可划分为（）（）和（）3种结构

答案：多对一|等长的多对多|非等长

109.LSTM是RNN的一种变形，是为了克服RNN无法很好处理（）而提出的。LSTM网络通过（）克服梯度爆炸问题

答案：长距离依赖|梯度剪裁技术

110.非等长结构即（）模型，主要用于解决（）问题。最基础的包含3个部分，分别为（）（）（）

答案：编码器|解码器|连接两者的中间状态向量C

解答题

111.请写出以下缩写的全称：NLP，NER，TF-IDF，LSA，LDA，BOW，CBOW，DBOW，RNN

112.Pip install 和conda install的区别是什么？

答案：pip install命令只会安装需要安装的包本身，而“conda install”命令除了会安装需要安装的包，还会自动安装这个包的依赖项

113. 请写出以下NLTK函数的作用：【similar】【concordance】【collocations】【common_text】【set】【sorted】【FreqDist】

答案：similar:搜索相似词语；concordance:搜索指定内容；collocations:搜索搭配词语；common_texts:搜索词的共同上下文；set：获取文本词汇表；sorted:排序；FreqDist：查询文本中的词汇频数分布。:

114.请写出以下基本语料库函数的作用：【fileids（）】【categories（）】【raw（）】【words（）】【sents（）】【open（fileid）】【root（）】【readme（）】

答案：fileids（）：获取语料库中的文件；categories（）：语料库中的分类；raw（）：语料库的原始内容；words（）：查找整个语料库中的词汇；sents（）：指定分类中的句子；open（fileid）：打开指定语料库文件的文件流；root（）：到本地安装的语料库根目录的路径；readme（）：语料库中的README文件的内容

115.请写出以下正则表达式函数的作用：【match函数】【search函数】【findall函数】【sub函数】

答案：match函数：用于检测字符串开头部分是否匹配，若匹配成功则返回结果，否则返回None；search函数：用于在整个字符串内查找符合对应模式的字符串并进行匹配，找到第一个匹配对象后返回一个包含匹配信息的对象，如果没有则返回None；findall函数：返回的是正则表达式在字符串中所有匹配结果的列表；sub函数：替换函数，能够找到所有匹配的字符串并将其替换成指定的字符串。

116.请用自己的语言描述正向最大匹配法和逆向最大匹配法

答案：正向最大匹配法：假设一个带分词中文文本和一个分词词典，词典中最长字符串的长度是l，从左至右切分待分词文本的前l个字符，然后在词典中查找是否有一样的字符串。若匹配失败，则删去该字符串的最后一个字符，仅留下前l-1个字符，继续匹配以此类推，匹配成功那么被切分下来的第二个文本成为新的待分词文本，重复以上操作直至匹配完毕。逆向最大匹配法与正向最大匹配法原理相反。

117.请说明HMM和条件随机场的区别

答案：HMM假设每个时刻的状态只与前一时刻的状态有关，而条件随机场假设每一时刻的状态还与后一时刻的状态有关。

118.TF-IDF的主要思想是？

答案：字词的重要性随着它在文档中出现次数的增加而上升，并随着它在语料库中出现频率的升高而下降

119.请描述主题模型算法？常见的主题模型算法有？所有主题模型算法都基于哪两个相同的基本假设？

答案：主题模型算法是在大量文档中发现潜在主题的一种统计模型。潜在语义分析、概率潜在语义分析、潜在狄利克雷分布以及深度学习的lda2vec。1）每个文档包含多个主题2）每个主题包含多个词

120.循环神经网络是一种什么样的神经网络？

答案：RNN是一类以序列数据为输入，在序列的演进方向进行递归，并且所有节点按链式连接的递归神经网络。

121.请用自己的话描述TensorFlow.

答案：TensorFlow是一个使用数据流图进行数值计算的开源软件库。它的优点有：高度的灵活性、可移植性、综合了科研和产品、自动计算梯度导数、性能最优化、多语言支持。

122.请用自己的话描述Keras

答案：Keras具有简易和快速的原型设计、支持CNN与RNN以及能够无缝在CPU和GPU间切换的优点。

123.假设语句序列s={小孩，喜欢，在家，观看，动画片}，估计这一语句的概率。假设语料库的总词数为7542个，单词出现的次数如下所示：小孩（500）【351】喜欢（3208）【873】在家（987）【792】观看（801）【170】动画片（2046）

答案：p(s)=p(小孩，喜欢，在家，观看，动画片)=p(小孩)p(喜欢|小孩)p(在家|喜欢)p(观看|在家)p(动画片|观看) = （500/7542）*（351/500）*（873/3208）*（792/987）*（170/801）≈ 0.2122347，因此语句s在当前语料库中出现的概率约为0.2122347