自然语言处理选择题

目录

B

C

D

G

J

Q

S

W

X

Y

Z


"re.sub('自然语言处理',"NLP",text l)"表示的含义为( )。正确答案: C :将test1中的"自然语言处理"替换为"NLP";

( )函数用于获取语料库中的文件。正确答案: D :fileids;

BOW模型其中的一个缺点是( )。正确答案: D :矩阵稀疏;

DM模型与CBOW模型的区别为( )。正确答案: C :DM模型输入不仅包括上下文,而且还包括相应的段落;

jieba词性标注的流程不包括( )。正确答案: D :创建规则库;

NLTK的安装步骤为( )。答案: D :安装NLP虚拟环境→安装NLTK→检查是否存在NLTK→下载NLTK数据包;

TF-lDF算法的主要思想是( )。正确答案: A :字词的重要性随着它在文档中出现次数的增加而上升,随着它在语料库中出现频率的升高而下降; 

B

不是聊天机器人模型优化方法的是( )。正确答案: B :自适应梯度法;

不属于jieba分词步骤的是( )。正确答案: B :统计每个出现在词头的位置状态的次数,得到初始概率;统计每种位置状态转移至另一种状态的次数,得到转移概率。;

不属于NLP应用场景的是( )。正确答案: A :数据挖掘;

不属于常用的正则表达式函数的是( )。正确答案: B :matplotlib函数;

不属于常用的正则表达式函数的是( )。正确答案: B :matplotlib函数;

不属于打开Jupyter Notebook 方式的是( )。正确答案: B :单击桌面上的Jupyter Notebook 图标;

不属于分布式表示模型的是( )。正确答案: D :分类模型;

不属于关键词提取算法的是( )。正确答案: B :关联算法;

不属于基于规则的分词方法的是( )。正确答案: C :反向最大匹配法;

不属于情感分析应用的是( )。正确答案: B :远程通信;

不属于未登录词的是( )。正确答案: A :网络热门词语;

不属于未登录词的是( )。正确答案: D :网络热门词语;

不属于文本挖掘的基本技术分类的是( )。

不属于文本语料获取方法的是( )。正确答案: D :随机生成;

不属于语料库特征的是( )。正确答案: A :语料库是随机收集的,可以被计算机程序检索的语料集合;

不属于语料预处理的是( )。正确答案: A :去除数据中的文本部分;

不属于中文的实体边界识别变得更加有挑战性原因的是( )。正确答案: A :中文词数量繁多;

不属于中文的实体边界识别变得更加有挑战性原因的是( )。正确答案: D :中文词数量繁多;

C

常见的主题模型算法不包括( )。正确答案: D :潜在语义判断(LSJ);

常用NLP模型的评价指标不包括 ( )。正确答案: B :IGD;

常用的文本处理模型不包括 ( )。正确答案: D :NLTK;

D

独热表示的缺点不包括( )。正确答案: A :可以保留语义;

对于满足正态分布的样本数据来说效果会很好,但是过于依赖初始聚类中心的算法是基于( )的聚类算法。正确答案: A :模糊;

对原始的语料文件进行预处理时要进行( )。正确答案: C :构建词典;

G

构建或研究语料库的时候,一般应考虑代表性、结构性、平衡性、( ) 4
个特性。正确答案: B :规模性;

关键词提取最简单、最直观的方法是( )方法,用于识别定义类查询的句子。正确答案: D :规则的匹配方法;

关于TextRank算法的描述不正确的是( )。正确答案: B :通过平均分配的方式计算每个词的链接词的得分;

关于TF-IDF算法的描述不正确的是( )。正确答案: A :采取投票的方式对关键词进行排序;

关于逆文档频率说法错误的是( )。答案: C :一个词在文档集中越少的文档中出现,说明这个词对文档的区分能力越弱;

关于特征函数的输出值是0或1的叙述正确的是( )。正确答案: A :0表示要标注序列不符合这个特征,1表示要标注序列符合这个特征;

关于文本分类的描述正确的是( )。正确答案: A :文本分类主要是按照规则对文本实现自动划归类别的过程;

关于文本聚类的描述正确的是( )。正确答案: C :文本聚类主要是从杂乱的文本集合中挖掘对用户有价值的信息;

关于主题模型算法的描述不正确的是( )。正确答案: B :每个文档中只包含一个主题;

J

机器学习算法进行文本分类或聚类的步骤不包括( )。正确答案: D :计算概论矩阵;

基于LDA主题模型的文本情感分析不包括( )。正确答案: A :文本转换;

基于规则的中文分词中的问题不包括( )。正确答案: D :随机型切分歧义;

基于机器学习的情感分类,关键在于特征选择、( )、分类模型。正确答案: C :特征权重量化;

基于情感词典的文本情感分析不包括( )。正确答案: D :特征选取;

基于文本分类的文本情感分析不包括( )。正确答案: C :文本抽取;

决策树算法的缺点是( )。正确答案: B :易出现过拟合,易忽略数据集属性的相关性;

Q

情感分析的基础性工作是( )。正确答案: C :文本信息抽取;

情感分析技术的核心问题是( )。正确答案: A :情感分类;

S

适用于样本容量较大的文本集合的文本分类算法是( )。正确答案: A :K最近邻;

属于特征提取方法的是( )。正确答案: D :BOW模型;

W

问答系统流程由问题理解、( )、答案生成3个部分组成。正确答案: A :知识检索;

X

下列Python中的预定义字符描述正确的是( )。正确答案: A :\s:空白字符;

下列Python中的预定义字符描述正确的是( )。正确答案: B :\s:空白字符;

下列不是基于规则的统计分词的是( )。正确答案: B :维特比模型;

下列不属于jieba分词模式的是( )。正确答案: C :自定义模式;

下列不属于NLP语料库构建规则的是( )。正确答案: D :不平衡性;

下列不属于按照研究目的和用途划分的语料库种类的是( )。正确答案: C :历史语料库;

下列不属于词性标注方法的是( )。正确答案: C :基于条件概率的词性标注;

下列关于jieba词性标注的流程错误的是( )。正确答案: A :构建无向无环图;

下列关于jieba词性标注的描述正确的是( )。正确答案: C :jieba词性标注与其分词的过程类似;

下列关于Word2Vec模型说法正确的是( )。正确答案: B :真正需要的是这个模型通过训练数据所得的参数;

下列关于文本聚类算法的描述正确的是( )。正确答案: A :基于层次的聚类算法不需要设定聚类数;

下列描述不正确的是( )。正确答案: A :语料库的规模越大对NLP研究越有利;

下列描述不正确的是( )。正确答案: B :match函数用于检测字符串是否匹配;

下列描述错误的是( )。正确答案: C :CRF是一种用于标记和切分序列化数据的基于规则的框架模型;

下列描述正确的是( )。正确答案: C :jieba分词结合了基于规则和基于统计的分词方法;

下列属于jieba分词全模式的语句是( )。正确答案: B :seg=jieba.cut(text,cut_all=True);

下列属于NLTK函数的是( )。正确答案: B :sorted;

下列属于正则表达式中的量化符的是( )。正确答案: A :?D.^;

Y

要求关键词提取算法应具有的性质不包括( )。正确答案: C :简洁性;

一篇文章在讲各式各样的水果及其功效,当"水果" 这一关键词没有直接出现在文本中时,应该使用( )。正确答案: D :主题模型算法;

语料库以语料库结构进行划分可分为( )。正确答案: A :平衡结构语料库与自然随机结构语料库;

Z

在NLP虚拟环境中安装需要的程序包,并自自动安装这个包的依赖项需要用到( )正确答案: D :conda install package_name;

在情感分析中,下列描述正错误的是( )。正确答案: D :情感极性判断属于二分类问题;

在情感分析中,下列描述正确的是( )。正确答案: B :文本的主客观分类是情感分析的基础性工作;

在文本向量化中,关于分布式表示的描述不正确的是( )。正确答案: D :词向量是一种稀疏词向量;

在文本向量化中,关于离散表示的描述不正确的是( )。正确答案: C :常用的方法有词集模型和连续词袋模型;

在文本向量化中,下列描述正确的是( )。正确答案: A :分布式表示将每个词根据上下文从高维空间映射到一个低维度、稠密的向量上;

在正则表达式的量化符中,下列描述不正确的是( )。正确答案: D :{n}表示前面的元素至少会被匹配n次;

在正则表达式中,下列描述不正确的是( )。正确答案: B :英文句号“.”表示匹配除换行符“\n”之外的第一个字符;

正确答案: C :文本数据挖掘;

正则表达式的功能不包括 ( )。正确答案: A :内容标注;

政府部门利用NLP技术分析人们对某一事件、政策法规或社会现象的评论,实时了解百姓的态度,这属于NLP研究内容的( )。正确答案: A :文本分类;

中文NLP的基本流程由语料获取、( )、文本向量化、模型构建、模型训班和模型评价6部分组成。正确答案: C :语料预处理;

中文实体识别的挑战不包括( )。正确答案: A :中文词无法通过空格分词;

  • 5
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重要分支,它涉及计算机与人类自然语言之间的相互作用。NLP的目标是使计算机能够理解、处理和生成自然语言。 NLP技术可以应用于多个领域,例如语音识别、文本分类、机器翻译、情感分析等。通过使用NLP技术,我们可以将大量的自然语言数据转化为结构化的信息,帮助计算机更好地理解和处理文本。 为了更好地理解和描述NLP问题,我们可以通过习题文档来练习和巩固相关的知识。这样的习题文档可以包含不同层次的问题,从基本概念的理解到具体的算法实现。通过反复练习,我们能够提高我们对NLP问题的认识和解决能力。 在习题文档中,可能会包括一些与语言相关的问题,如分词、词性标注、命名实体识别等。此外,还可以涉及到文本数据的预处理、特征选择、模型选择等问题。这些问题可以帮助我们熟悉和理解NLP中常用的技术和方法。 通过完成习题文档,我们可以对自己在NLP方面的理解和能力进行评估,发现和填补知识的空白,进一步提高自己的技术水平。同时,习题文档也可以作为一个学习和交流的工具,我们可以与他人一起讨论和解决问题,共同提高。 总之,NLP习题文档对于学习和掌握自然语言处理领域的知识和技能非常有帮助。它能够帮助我们巩固基础概念,熟悉常用的技术和方法,提高我们的问题解决能力,并为进一步深入研究NLP打下坚实基础。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值