期末考试整理的一些简单的练习题
选择题
1.政府部门利用NLP技术分析人们对某一事件、政策法规或社会现象的评论,实时了解百姓的态度,这属于NLP研究内容的()
A.信息检索
B.文本分类
C.信息过滤
D.自动文摘
答案:B
2.不属于NLP应用场景的是()
A.百度翻译
B.图灵机器人
C.微信语音转文字
D.数据挖掘
答案:D
3.中文NLP的基本流程由语料获取、()、文本向量化、模型构建、模型训练和模型评价6部分组成
A.语料预处理
B.中文分词
C.去停用词
D.词性标注
答案:A
4.在NLP虚拟环境中安装需要的程序包,并自动安装这个包的依赖项需要用到()
A.pip install package_name
B.conda install package_name
C.conda package_name
D.pip package_name
答案:B
5.不属于打开Jupyter Notebook方式的是()
A.直接在开始菜单栏中单击“Anaconda”下的”Jupyter Notebook”
B.在Anaconda Prompt中输入“jupyter notebook”
C.单击桌面上自动生成的Jupyter Notebook图标
D.首先打开某个文件夹,然后按住“shift”键并单击鼠标右键,在菜单中单击“在此书打开Powershell窗口”命令,这时会弹出命令行窗口,接着输入”jupyter notebook”命令即可
答案:C
6.语料库以语料库结构进行划分可分为()
A.通用语料库与专用语料库
B.平衡结构语料库与自然随机结构语料库
C.共时语料库与历时语料库
D.单媒体语料库与多媒体语料库
答案:B
7.构建或研究语料库的时候,一般应考虑代表性、结构性、平衡性、()4个特性
A.规模性
B.便捷性
C.安全性
D.高效性
答案:A
8.NLTK的安装步骤为()
A.安装NLP虚拟环境->安装NLTK->检查是否存在NLTK->下载NLTK数据包
B.安装NLTK->安装NLP虚拟环境->检查是否存在NLTK->下载NLTK数据包
C.安装NLP虚拟环境->安装NLTK->下载NLTK数据包->检查是否存在NLTK
D.下载NLTK数据包->安装NLP虚拟环境->安装NLTK->检查是否存在NLTK
答案:A
9.()函数用于搜索搭配词语
A.concordance
B.common_contexts
C.collocations
D.sorted
答案:C
10.()函数用于获取语料库中的文件
A.categories
B.raw
C,open(fileid)
D.fileids
答案:D
11.不属于常用的正则表达式函数的是()
A.match函数
B.search函数
C.findall函数
D.matplotlib函数
答案:D
12.”re.sub(‘自然语言处理’,”NLP”,text1)”表示的含义为()
A.将test1中的“自然语言处理”替换为“NLP”
B.将test1中的“NLP”替换为“自然语言处理”
C.找出test1中的“自然语言处理”
D.找出test1中的“NLP”
答案:A
13.竖线“|”用于对两个正则表达式进行“或”操作。如果A和B是正则表达式,那么A|B表示为()
A.匹配A和B一起出现的字符
B.匹配A或B中出现的任何字符
C.匹配A中出现的任何字符
D.匹配B中出现的任何字符
答案:B
14.美元货币符号“$”表示匹配字符串的()位置
A.结束
B.开始
C.中间
D.表示货币的字符串
答案:A
15.下列Python中的预定义字符描述正确的是()
A.\w:与\W反义,非数字、非字母和非字
B.\s:空白字符
C.\D:数字
D.\d:非数字
答案:B
16.不属于基于规则的分词方法的是()
A.正向最大匹配法
B.逆向最大匹配法
C.反向最大匹配法
D.双向最大匹配法
答案:C
17.不属于未登录词的是()
A.网络热门词语
B.人名、地名和组织机构名
C.化学试剂的名称
D.经典文学作品
答案:D
18.假设有语句序列{小孩,喜欢,在家,观看,动画片},估计这一语句的概率为(),假设语料库中总词数为6000,单词出现的次数如图:小孩(500)【351】喜欢(3000)【873】在家(1000)【792】观看(500)【170】动画片(1000)
A.0.004584
B.0.002223
C.0.004558
D.0.006587
答案:A
19.适合高阶n-gram模型的平滑方法为()
A.加1平滑
B.古德-图灵平滑
C.线性插值平滑
D.均值平滑
答案:C
20.不属于jieba分词步骤的是()
A.基于前缀词典快速扫描词图,搭建可能得分词结果的有向无环图,构成多条分词路径
B.统计每个出现在词头的位置状态的次数,得到初始概率;统计每种位置状态转移至另一种状态的次数,得到转移概率
C.采用动态规划法寻找最大概率路径,从右往左反向计算最大概率,以此类推,得到概率最大的分词路径,作为最终的分词结果。
D.采用HMM处理未登录词,借助模型中语句构成的四个状态B、M、E、S推导,最终利用维特比算法求解最优路径
答案:B
21.下列关于jieba词性标注的流程错误的是()
A.加载离线统计词典
B.构建前缀词典
C.构建无向无环图
D.计算最大概率路径
答案:C
22.不属于中文的实体边界识别变得更加有挑战性原因的是()
A.中文词数量繁多
B.中文词灵活多变
C.中文词的嵌套情况复杂
D.中文词存在简化表达现象
答案:A
23.CRF模型思想主要来源于()
A.无向图模型
B.最大熵模型
C.马尔科夫随机场
D.统计方法
答案:B
24.多分类问题中最经典打分模型是()
A.CRF模型
B.聚类模型
C.多项逻辑斯谛回归
D.神经网络模型
答案:C
25.下列关于特征函数的输出值是0或1的叙述正确的是()
A.0表示要标注序列不符合这个特征,1表示要标注序列符合这个特征
B.0表示要标注序列符合这个特征,1表示要标注序列不符合这个特征
C.0和1都表示要标注序列符合这个特征
D.0和1都表示要标注序列不符合这个特征
答案:A
26.要求关键词提取算法应具有的性质不包括()
A.可读性
B.高速性
C.简洁性
D.健壮性
答案:C
27.不属于关键词提取算法的是()
A.TF-IDF算法
B.TextRank算法
C.主题模型算法
D.关联算法
答案:D
28.TF-IDF算法的主要思想是()
A.字词的重要性随着它在文档中出现次数的增加而上升,随着它在语料库中出现频率的升高而下降
B.字词的重要性随着它在文档中出现次数的增加而下降,随着它在语料库中出现频率的升高而下降
C.字词的重要性随着它在文档中出现次数的增加而下降,随着它在语料库中出现频率的升高而上升
D.字词的重要性随着它在文档中出现次数的增加而上升,随着它在语料库中出现频率的升高而上升
答案:A
29.关于逆文档频率说法错误的是()
A.逆文档频率是一个词出现在文档集中文档频次的统计量
B.一个词在文档集中越少的文档中出现,说明这个词对文档的区分能力越强
C.一个词在文档集中越少的文档中出现,说明这个词对文档的区分能力越弱
D.逆文档频率统计量的计算公式为idf=log |D|/|{j:t∈ d}|+1
答案:C
30.一篇文章在讲各式各样的水果及其功效,当“水果”这一关键词没有直接出现在文本中时,应该使用()
A.TF-IDF算法
B.TextRank算法
C.主题模型算法
D.PageRank算法
答案:C
31.独热表示的缺点不包括()
A.构造简单
B.维数过高
C.不可以保留语义
D.矩阵稀疏
答案:C
32.BOW模型其中一个缺点是()
A.可以保留语义
B.维数低
C.没有忽略文档的词语顺序
D.矩阵稀疏
答案:D
33.不属于分布式表示模型的是()
A.分类模型
B.LSA矩阵分解模型
C.PLSA潜在语义分析概率模型
D.Word2Vec模型
答案:A
34.下列关于Word2Vec模型说法正确的是()
A.得到的训练结果不能度量词与词之间的相似性
B.当这个模型训练好以后,需要用这个训练好的模型处理新的任务
C.真正需要的是这个模型通过训练数据所得的参数
D.Word2Vec模型其实就是简化的遗传算法模型
答案:C
35.DM模型与CBOW模型的区别为()
A.DM模型的输入包括上下文
B.DM模型预测目标词出现的概率
C.DM模型输入不仅包括上下文,而且还包括相应的段落
D.CBOW模型输入包括上下文
答案:C
36.不属于文本挖掘的基本技术分类的是()
A.文本信息抽取
B.文本分类
C.文本聚类
D.文本数据挖掘
答案:D
37.适用于样本容量较大的文本集合的文本分类算法是()
A.朴素贝叶斯算法
B.支持向量机算法
C.神经网络算法
D.K最近邻
答案:D
38.决策树算法的缺点是()
A.学习时间长,且效果不可保证
B.易出现过拟合,易忽略数据集属性的相关性
C.时空复杂度较高,样本容量较小或数据集偏斜时容易误分
D.对非线性问题没有通用解决方案
答案:B
39.对于满足正态分布的样本数据来说效果会很好,但是过于依赖初始聚类中心的算法是基于()的聚类算法
A.模型
B.网格
C.模糊
D.密度
答案:C
40.属于特征提取方法的是()
A.BOW模型
B.数据标准化
C.训练模型
D.模型融合
答案:A
41.情感分析的基础性工作是()
A.文本信息抽取
B.文本的主客观分类
C.情感分类
D.情感极性判断
答案:A
42.基于机器学习的情感分类,关键在于特征选择、()、分类模型
A.标记词性
B.特征提取
C.特征权重量化
D.情感极性判断
答案:C
43.不属于情感分析应用的是()
A.信息检索
B.远程通信
C.机器翻译
D.语音识别
答案:B
44.情感分析技术的核心问题是()
A.情感分类
B.信息预测
C.舆情分析
D.文本抽取
答案:A
45.基于LDA主题模型的文本情感分析不包括()
A.文本转换
B.主题提取和情感词提取
C.主题情感摘要生成
D.系统评测
答案:A
46.RNN适用于处理视频、语音、文本等与时序相关的问题,其常见的应用领域不包括()
A.图像处理
B.视频剪辑
C.语音识别
D.文本相似度计算
答案:D
47.RNN经典结构的输入和输出的序列长度为()
A.多对一
B.一对多
C.等长的多对多
D.非等长的多对多
答案:C
48.下列关于双向RNN结构说法正确的是()
A.只考虑预测词前面的词,并没有考虑该词后面的内容
B.不仅从前往后保留该词前面的词的信息,而且还从后往前保留该词后面的词的信息
C.不是由两个RNN上下叠加在一起组成
D.输出与隐藏层的状态无关
答案:B
49.下列关于LSTM说法不正确的是()
A.通过改进使RNN具备避免梯度消失的特性
B.LSTM只能够刻画出输入数据中的短距离的相关信息,不能够捕捉到具有较长时间间隔的依赖关系
C.LSTM神经网络模型使用门结构实现了对序列数据中的遗忘与记忆
D.使用大量的文本序列数据对LSTM模型训练后,可以捕捉到文本词的依赖关系,训练好的模型就可以根据指定的文本生成后序的内容
答案:B
50.TensorFlow的特点不包括()
A.高速性
B.性能最优化
C.多语言支持
D.可移植性
答案:A
51.问答系统流程由问题理解、()、答案生成3个部分组成
A.词性标注
B.关键词提取
C.问题分类
D,知识检索
答案:D
52.关键词提取最简单、最直观的方法是()方法,用于识别定义类查询的句子
A.词性标注
B.命名实体识别
C.基于规则的匹配方法
D.文本分类
答案:C
53.不属于基于Seq2Seq模型的聊天机器人的实现流程的是()
A.读取语料库
B.绘画建模
C.抽取数据中的问题与回答
D.添加Attention机制
答案:B
54.对原始的语料文件进行预处理时要进行()
A.抽取数据中的问题与回答
B.构建词典
C.模型训练
D.模型测试
答案:B
55.聊天机器人模型的优化方法是()
A.损失函数
B.优化器
C.自适应梯度法
D.神经网络
答案:C
判断题
56.自然语言处理(NLP)主要关注的是让计算机能够理解和生成人类语言。
答案:正确
57. 词袋模型(Bag of Words)在处理文本时,考虑了单词之间的顺序信息。
答案:错误
解析:词袋模型忽略了单词之间的顺序。
58. 词嵌入(Word Embedding)技术如Word2Vec可以捕捉单词之间的语义关系。
答案:正确
59. 在命名实体识别(NER)任务中,实体通常指的是人名、地名、组织名等
答案:正确
60. 文本分类任务中,朴素贝叶斯(Naive Bayes)通常比深度学习模型表现更好。
答案:错误
解析:这取决于具体的应用和数据集,但在许多情况下,深度学习模型可以取得更好的性能。
61. 依存句法分析(Dependency Parsing)的目标是识别句子中单词之间的语法关系。
答案:正确
62. 语言模型(Language Model)的主要任务是预测文本序列中的下一个单词或字符。
答案:正确
63. 情感分析(Sentiment Analysis)通常只涉及对文本表达的情感(如正面、负面或中性)进行分类。
答案:错误
解析:虽然这是情感分析的一个主要任务,但也可以包括更细粒度的情感分类,如情绪识别等。
64. 机器翻译(Machine Translation)任务中,翻译的准确性通常比流畅性更重要。
答案:错误
解析:在机器翻译中,翻译结果的准确性和流畅性通常都需要考虑,而且两者的相对重要性可能因应用而异。
65. 文本摘要(Text Summarization)技术可以生成与原文长度相同的摘要。
答案:错误
解析:文本摘要的目的是生成一个比原文更短的摘要,同时保留原文的主要信息。
66. One-hot编码中,随着语料库的增加,词向量的维数会线性增加,这可能导致维数灾难。
答案:正确
67. TF-IDF算法只考虑了词的出现频次和出现文档的个数,对文本内容的利用程度较低。
答案:正确
68. Word2Vec模型是一种复杂化的神经网络模型,用于学习词的分布式表示。
答案:正确
69. 神经网络优化器AdaGrad对低频的参数做较大的更新,对高频的做较小的更新。
答案:正确
70. 停用词(Stop Words)在自然语言处理中通常被忽略,因为它们对文本的意义贡献不大。
答案:正确
71. 在所有主题模型中,每个文档都仅包含一个主题。
答案:错误
解析:在主题模型中,一个文档通常可以包含多个主题。例如,在LDA(Latent Dirichlet Allocation)模型中,每个文档被视为一个主题的混合体,而每个主题则是一组词的分布。
72. 情感分析的主要内容包括主客观分类、情感分类和词性标注。
答案:错误
解析:情感分析的主要内容包括主客观分类和情感分类,但词性标注通常不被认为是情感分析的核心内容。词性标注是对文本中的词进行词性判断的过程,是自然语言处理中的一项基础任务。
73. TF-IDF算法中,字词的重要性随着它在文档中出现次数的增加而上升。
答案:错误
解析:TF-IDF算法中,字词的重要性确实与其在文档中的出现次数(TF)有关,但同时还受到它在整个语料库中的出现频率(IDF)的影响。IDF的作用是对TF进行校正,以防止过于频繁的词(如停用词)被赋予过高的权重。
74. 词干提取(Stemming)和词形还原(Lemmatization)是自然语言处理中用于减少词汇多样性的两种主要技术。
答案:正确
75. 自然语言处理中的文本分类任务只涉及二分类问题。
答案:错误
解析:自然语言处理中的文本分类任务可以涉及二分类问题(如垃圾邮件识别),也可以涉及多分类问题(如情感分析中的积极、消极和中性分类)以及更复杂的类重叠分类问题(如主题分析)。
填空题
76.NLP机制涉及两个流程:()和()
答案:自然语言理解|自然语言生成
77.写出NLP研究内容包含的分支领域()()()()()()()()()()
答案:机器翻译|信息检索|文本分类|智能问答|信息过滤|自动文摘|信息抽取|舆情分析|语音识别|自动校对
78.NLP的4个应用场景:()()()()
答案:百度翻译|图灵机器人|微信语音转文字|新闻自动分类
79.在NLP的几十年发展中,从基于()方法到基于()方法再到现在的基于()的方法
答案:简单的规则|统计学|深度学习神经网络
80.NLP的基本流程由6部分组成:()()()()()()
答案:语料获取|语料预处理|文本向量化|模型构建|模型训练|模型评价
81.常见语料预处理的四个方法:去除数据中非文本内容、()、()、()
答案:中文分词|词性标注|去停用词
82.NLP中使用的模型包括机器学习模型和深度学习模型。常用的机器学习模型有:()、()、Naïve Bayes、决策树、()等,常用的深度模型有()、()、()、()、FastText、TextCNN等
答案:KNN|SVM|K-means|RNN|CNN|LSTM|Seq2Seq
83.模型训练过程中要注意两个问题,分别是过拟合问题和()问题。前者是指在训练集上表现很(),但在测试集上表现很();后者是模型不能很好的拟合数据。同时还要避免模型出现()和()的问题。
答案:欠拟合|好|差|梯度消失|梯度爆炸
84.模型的评价指标主要有()率、()率、召回率、F1值、ROC曲线、AUC曲线等
答案:准确|精确
85.语料库的用途包括以下4个方面:用于()、用于编写工具参考书籍、用于语言教学、用于()
答案:语言研究|NLP
86.以语料库的结构进行划分,可将语料库分为()和();以语料库用途进行划分,可将语料库分为()和();以语料选取时间进行划分,可将语料库分为()和()
答案:平衡结构语料库|自然随机结构语料库|通用语料库|专用语料库|共时语料库|历时语料库
87.语料库的构建原则一般考虑一下4个:()()()()
答案:代表性|结构性|平衡性|规模性
88.英文句号“.”表示();中括号“[ ]”表示();竖线“|”用于();乘方符号“^”表示();美元货币符号”$”表示();量化符有()()()()()()
答案:匹配除换行符“\n”之外的任意一个字符|匹配多个字符|对两个正则表达式进行“或”操作|匹配字符串起始位置的内容|匹配字符串的结束位置的内容|?|*|+|{n}|{n,}|{n,m}
89.”A.+?B”表示(),“A.*?B”表示();()+“.*?”表示()
答案:匹配”A”开头、“B”结尾且中间至少带有一个字符的内容|匹配“A”开头、“B”结尾且中间允许不带其他字符的内容|提取
90.中文分词技术有基于()分词和基于()分词
答案:规则|统计
91.马尔可夫假设ω1 出现的概率只与前面N-1个词相关,当N=n时,该统计语音模型称为()模型,N=1时称为()模型,N=2时称为()模型,N=3时称为()模型
92.常用的数据平滑方法有()()()
答案:加1平滑|古德-图灵平滑|线性插值平滑
93.解决多阶段决策最优化问题的方法称为()
答案:动态规划法
94.维特比算法就是用()法来求解HMM的预测问题的,即用其求概率最大路径。
答案:动态规划
95.维特比算法的五个步骤分别是()()()()()
答案:初始化|递推计算|记忆回退路径|终止|路径回溯
96.jieba分词支持精确模式、()模式、()模式
答案:全|搜索引擎
97.命名实体识别是指()
答案:文本中具有特别意义或指代性非常强的实体
98.命名实体可分为()()()3大类,以及人名、机构名、地点、时间、日期、货币和百分比7小类。
答案:实体类|时间类|数字类
99.中文实体识别的挑战性主要表现在以下三个方面:()()()
答案:中文词灵活多变|中文词的嵌套情况复杂|中文词存在简化表达现象
100.命名实体识别中最常用、最基本的3个统计模型是:()()(),它们出现按先后顺序是(HMM、MEMM、CRF)
答案:HMM|最大熵马尔可夫模型|条件随机场
101.CRF模型思想主要来源于()
答案:最大熵模型
102.关键词提取系统的实用性主要表现在以下4个方面()()()()
答案:可读性|高速性|学习性|健壮性
103.常见的关键词提取算法有()()()其中主题模型算法主要包括()()
答案:TF-IDF算法|TextRank算法|主题模型算法|LSA|LDA
104.TF-IDF算法由()()两部分组成
答案:词频|逆文档频率
105.关键词提取技术有()()()()
答案:TF-IDF算法|TextRank算法|LSA算法|LDA算法
106.文本向量化主要有()表示和()表示两种。前者有()表示和()模型以及()表示。后者有()模型(其包含()模型和()模型)、()模型(其包括()模型)和()模型)
答案:离散|分布式|独热|BOW|TF-IDF|Word2Vec|CBOW|Skip_Gram|Doc2Vec|DM|DBOW
107.Doc2Vec技术从()技术扩展而来,DM模型与()模型相对应
答案:Word2Vec|CBOW
108.RNN结构按输入和输出的序列长度可划分为()()和()3种结构
答案:多对一|等长的多对多|非等长
109.LSTM是RNN的一种变形,是为了克服RNN无法很好处理()而提出的。LSTM网络通过()克服梯度爆炸问题
答案:长距离依赖|梯度剪裁技术
110.非等长结构即()模型,主要用于解决()问题。最基础的包含3个部分,分别为()()()
答案:编码器|解码器|连接两者的中间状态向量C
解答题
111.请写出以下缩写的全称:NLP,NER,TF-IDF,LSA,LDA,BOW,CBOW,DBOW,RNN
答案:Natural Language Processing|Named Entity Recognition|Term Frequency-Inverse Document Frequency|Latent Semantic Analysis|Latent Dirichlet Allocation|Bag of Words|Continuous Bag-of-Words|Distributed Bag of Words|Recurrent Neural Network
112.Pip install 和conda install的区别是什么?
答案:pip install命令只会安装需要安装的包本身,而“conda install”命令除了会安装需要安装的包,还会自动安装这个包的依赖项
113. 请写出以下NLTK函数的作用:【similar】【concordance】【collocations】【common_text】【set】【sorted】【FreqDist】
答案:similar:搜索相似词语;concordance:搜索指定内容;collocations:搜索搭配词语;common_texts:搜索词的共同上下文;set:获取文本词汇表;sorted:排序;FreqDist:查询文本中的词汇频数分布。:
114.请写出以下基本语料库函数的作用:【fileids()】【categories()】【raw()】【words()】【sents()】【open(fileid)】【root()】【readme()】
答案:fileids():获取语料库中的文件;categories():语料库中的分类;raw():语料库的原始内容;words():查找整个语料库中的词汇;sents():指定分类中的句子;open(fileid):打开指定语料库文件的文件流;root():到本地安装的语料库根目录的路径;readme():语料库中的README文件的内容
115.请写出以下正则表达式函数的作用:【match函数】【search函数】【findall函数】【sub函数】
答案:match函数:用于检测字符串开头部分是否匹配,若匹配成功则返回结果,否则返回None;search函数:用于在整个字符串内查找符合对应模式的字符串并进行匹配,找到第一个匹配对象后返回一个包含匹配信息的对象,如果没有则返回None;findall函数:返回的是正则表达式在字符串中所有匹配结果的列表;sub函数:替换函数,能够找到所有匹配的字符串并将其替换成指定的字符串。
116.请用自己的语言描述正向最大匹配法和逆向最大匹配法
答案:正向最大匹配法:假设一个带分词中文文本和一个分词词典,词典中最长字符串的长度是l,从左至右切分待分词文本的前l个字符,然后在词典中查找是否有一样的字符串。若匹配失败,则删去该字符串的最后一个字符,仅留下前l-1个字符,继续匹配以此类推,匹配成功那么被切分下来的第二个文本成为新的待分词文本,重复以上操作直至匹配完毕。逆向最大匹配法与正向最大匹配法原理相反。
117.请说明HMM和条件随机场的区别
答案:HMM假设每个时刻的状态只与前一时刻的状态有关,而条件随机场假设每一时刻的状态还与后一时刻的状态有关。
118.TF-IDF的主要思想是?
答案:字词的重要性随着它在文档中出现次数的增加而上升,并随着它在语料库中出现频率的升高而下降
119.请描述主题模型算法?常见的主题模型算法有?所有主题模型算法都基于哪两个相同的基本假设?
答案:主题模型算法是在大量文档中发现潜在主题的一种统计模型。潜在语义分析、概率潜在语义分析、潜在狄利克雷分布以及深度学习的lda2vec。1)每个文档包含多个主题2)每个主题包含多个词
120.循环神经网络是一种什么样的神经网络?
答案:RNN是一类以序列数据为输入,在序列的演进方向进行递归,并且所有节点按链式连接的递归神经网络。
121.请用自己的话描述TensorFlow.
答案:TensorFlow是一个使用数据流图进行数值计算的开源软件库。它的优点有:高度的灵活性、可移植性、综合了科研和产品、自动计算梯度导数、性能最优化、多语言支持。
122.请用自己的话描述Keras
答案:Keras具有简易和快速的原型设计、支持CNN与RNN以及能够无缝在CPU和GPU间切换的优点。
123.假设语句序列s={小孩,喜欢,在家,观看,动画片},估计这一语句的概率。假设语料库的总词数为7542个,单词出现的次数如下所示:小孩(500)【351】喜欢(3208)【873】在家(987)【792】观看(801)【170】动画片(2046)
答案:p(s)=p(小孩,喜欢,在家,观看,动画片)=p(小孩)p(喜欢|小孩)p(在家|喜欢)p(观看|在家)p(动画片|观看) = (500/7542)*(351/500)*(873/3208)*(792/987)*(170/801)≈ 0.2122347,因此语句s在当前语料库中出现的概率约为0.2122347
123.请写出独热表示、BOW的缺点
独热:1)维数过高 2)矩阵稀疏 3)不能保留语义
BOW:1)不能保留语义 2)维数高和稀疏性
#成都东软学院