阿里云人工智能ACP错题整理.txt

最新推荐文章于 2025-12-12 11:43:32 发布

原创最新推荐文章于 2025-12-12 11:43:32 发布 · 1.6k 阅读

CC 4.0 BY-SA版权

文章标签：

1、TextRank是一种关键词抽取和文档摘要的排序算法，由谷歌的网页重要性排序算法PageRank算法改进而来，利用文本内部的词语间的语义便可以抽取关键词，它能够从一个给定的文本中抽取出该文本的关键词、关键词组，并使用抽取式的自动文摘方法抽取出该文本的关键句。
2、word2vec的两种训练方式分别是cbow、 Skip-gram
3、无专家知识的前提下，顺序型数据可以转换为类别型数据。顺序数据是只能归于某一有序类别的非数字型数据，它也是有类别的，但这些类别是有序的。类别型数据是只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，因此对于顺序型数据可以转为类别型数据。
4、随机森林与Adaboost两者均归属于集成学习算法,随机森林是Bagging方法，并不是Boosting方法，因此随机森材并不属于Adaboost算法
5、基于样本的迁移学习、基于特征的迁移学习、基于模型的迁移学习、基于关系的迁移学习
6、PAI-EAS服务部署的PAI-studio一键部署方式有模型在线部署、实验离线调度
7、R-CNN的一张图像内候选框之间存在大量重，提取特征操作兄余。而FastR-CNN将整张图像归深度网络，紧接着送入从这幅图像上提取出的候选区域
8、在DFSMN-CTC-SMBR模型中，采用mini batch方式和基于middleware (中间件)的多机(muli GPU)都是为了提升模型的训练速度，毕竟在普通话识别模型DFSMN-CTC-SMBR中有2万小时的普通话语音和2000多万的句子，若是不采取这种训练方式训练模型的周期将会非常长，因此是A、B正确的。
9、一句话识别的场景是语音搜索，语音指令，语音短消息，智能外呼。
10、自动调参的调参方式有:GAUSE、GRID SEARCH、UserDefine、PBT、SAMPLE、EVOLUTIONARY OPTIMIZER、 RANDOM SEARCH.
11、在PAL-Studio可视化建模中使用深度学习组件时，需要项目开启GPU，提高模型训练速度
12、离线调度功能是机器学习的常见场景，您需要通过离线调度功能周期性地更新模型，帮助您构建模型训练的Pipeline。机器学习支持与DataWorks互通，实现机器学习实验的周期性调度
13、PAI-DSW(Data Science Workshop)是为算法开发者量身打造的云端深度学习开发环境，集成upyterLab，插件化深度定制化开发，无需任何运维配置，沉浸式体验Notebook编写、调试及运行Python代码支持开源框架的安装，并提供阿里巴巴深度优化的Tensorflow框架，通过编译优化提升训练性能
14、逻辑回归二分类组件支持稀疏及稠密数据格式。PAI-Studi0支持通过可视化或PAI命令的方式，配置该组件参数页字段设置、参数设置、执行调优:
15、6大颜色空间包括: 1.RGB空间;2.CIYICIYK颜色空间;3.HSVIHSB颜色空间;4.HSI/HSL颜色空间;5.LAB颜色空间:6.YUVNYCbCr颜色空间，
16、word Embedding是把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。这种方法导致无法区分多义词的多重含义，同时对于多次出现的词，这个词的word Embedding不会随着上下文场景变化而变化，从而可能导致上下文语境缺失。
17、阿里云自然语言处理模块包括：概览、基础版、进阶版
18、在语音识别服务中，如果您的业务领域有部分词汇默认识别效果不够好，可以考虑使用热词功能，将这些词添加到词表从而改善识别结果。热词功能是为了提升对词的识别准确度，那些新出现的词，识别不好的词，都可以通过使用热词功能来提升识别度，选项A.B.C.D均符合;选项E.F不符合
19、运行实验，查看混淆矩阵组件的输出结果:单击混淆矩阵页签，查看输出的混淆矩阵。单击统计信息页签，查看模型统计信息。而总览与比例矩阵在运行的可查看输出中并没有，所以本题选择总览与比例矩阵。
20、行为(Action，A):智能体所能采取的所有可能的行为。策略 (Policy，T):智能体更具当前状态来决定下一步行为的方法。智能体(Agent)增强学习中的实体，从实验和错误中学习。奖励（Reward）环境对智能体上一个行为的反馈
21、激活函数的条件是:非线性、单调性、处处可导等。如果使用线性激活函数最后化简后依然为线性，多层的优势就没有起作用。
22、数据类型转换组件是将输入数据的数据类型转换成指定的数据类型，支持int、double、string、datetime四种类型转换
23、PAI命令参数说明:inputTableName(输入表的名称)、inputTableParitions(输入表中，参与训练的分区)modeIName(输出的模型名称)、featureCoINames(输入表中，用于训练的特征列名)、labelColName(输入表中，标签列的名称)
24、混淆矩阵(Confusion Matrix)适用于监督学习，与无监督学习中的匹配矩阵对应。在精度评价中，混淆矩阵主要用于比较分类结果和实际测量值，可以将分类结果的精度显示在一个矩阵中。
25、智能视觉Intelicjence Vision(ivisior)是阿里云提供的一种认知服务，而并不是阿里云提供的视觉挖掘服务。便用智能视觉, 可以让您通过上传自身业务的图像或视须训练和部署业务所需的定制化A模型。用户在使用时无需有人工智能相关的技术储备，而是根据业务需要对图片或视颇进行标注后通过一键训练及预测即可使用。在使用过程中，可随看业务的变化，不断增加新的标注数据训练和部署新的模型。所以本题选择A.阿里云提供的一种视觉挖掘服务。
26、自学习平台的特点:易用，一键式自助语音优化方案，降低优化门槛;快速，在数分钟之内完成业务专属定制的优化测试上线;准确，基于自学习平台优化超过了其他采用传统手段优化的结果。
27、弱人工智能、强人工智能、超人工智能
28、在自然语言处理中，使用长短期记忆LSTM来解决RNN长序列训练过程中的梯度消失和梯度爆炸问题
29、针对多元线性回归模型，用户可以使用哪个指标或者方法，对回归模型的预测或解释能力作出综合评价，决定系数。
30、TensorFlow是C++开发的
31、目标检测算法SSD包含anchor机制
32、语音应用常见的噪声是背景噪声
33、迁移学习的算法特征：根据一定的权重生成规则，对数据样本进行重用，来进行迁移学习。具有较好的理论支撑，容易推导泛化误差上界，对领域分布差异较小时的效果良好。代表算法TradaBoost
34、卷积神经网络的三大结构特征是局部连接、权值共享、空间或时间的下采样（池化）
35、RCNN中获取目标候选区的方法是Selective Search
36、阿里云智能语音产品采用了哪项编解码技术，保证在不损失识别精度的基础上将解码速率提升3倍以上， LFR
37、语音信号处理的目的包括：理解语音是一种交流手段、方便语音的传播和复制，对语音进行分析发现声源的一些特征
38、阿里云可视化建模，可以通过在DataWorks创建周期任务，使用机器学习节点运行实验，来实现离线周期运行。
39、如果把智能体比作一个蛋糕，那么无监督学习就是蛋糕本体，增强学习就是蛋糕上的樱桃，监督学习仅仅能算作蛋糕上的糖霜。
40、将原始图像转化成相应的唯一标准形式的图像的预处理方式是归一化。
41、机器翻译原理最经典的就是编码器解码器模型，其中编码器的作用时把员语言编码成一个词向量。
42、阿里云普通话识别模型（DFSMN-CTC-SMBR)采用mini bath方式进行模型训练；采用join CTC-CE准则；采用单纯音节模型
43、TF-IDF，词频-逆文档频率，TF乘IDF的值越大，表示该词越重要
44、可视化建模实验名称的最大长度是32个字符
45、自然语言处理语义标注是在句法分析的基础上进行的一种浅层语义理解技术。这种技术是以谓问词为中心，进行句子各成分与谓问词的关系分析。
46、商品图像搜索，可以在商品库中准确找到与输入商品颜色相似的商品
47、阿里云自然语言处理处理的服务人机对话应用场景，词性标注服务是不需要的
48、视觉智能算法的最大特点是自动化
49、计算签名时按照RC2104的定义，计算待签名字符串（StringToSign)的HMAC值，按照Base64编码规则把HMAC值编码成字符串，即得到签名值。
50、调用自然语言处理服务API需要传递的公共参数有AccessKeyId,Version,SignatureNonce,Signature,SignatureMethod,Timestamp,SignatureVersion
51、调用API时，如果子账号AccessKey丢失，重建子账号AccessKey
52、只能语音合成服务，短文本语音合成、长文本语音合成、语音合成定制。支持异步方式获取合成结果。基于websocket长连接实现。
53、自然语言处理模块创建项目时，项目描述和项目名称是必填项
55、文本分类服务，文本摘要服务、关键词抽取服务、文本序列标注服务。
56、PAI-Studio实验运行后，可以查看的日志信息有：运行状态、当前工作目录、Logview日志、报错信息等
57、数据归一化的方法有：min-max标准化、z-score标准化、log函数转换
58、门循环单元网络（GRU）主要有哪两个门限函数组成？重置门、更新门。
59、图像检索和人脸识别是使用图像间相似性
60、身份证识别功能，可以识别姓名、性别等信息，还能识别身份证区域位置、人脸位置信息
61、PAI-EAS，Processor功能，将模型文件加载为服务、处理对模型服务调用的请求、模型计算结果返回客户端
62、增强学习的特点，根据环境反馈不断调试来进行模型训练；常用算法有Q-Learning，SARSA
63、关键词抽取算法，无监督：基于统计的抽取方法、基于主题模型的抽取方法、基于图论的抽取方法。有监督学习的方法：机器学习方法、深度学习方法。
64、大数据计算服务MaxCompute、表格存储Table Store
65、新闻分类结果不够理想的原因：实验数据量小，未对数据进行特征工程处理及细节调优。
66、语音识别是将人类语音中的内容转换为计算机可读的输入，一般是可理解的文本内容。语音识别的处理过程包括，声学模型，语言模型，解码器，声学模型是识别语音的单个因素，语言模型是求解音素序列对应的语句的概率，解码器依据声学模型，语言模型，解码算法给定语音找到最佳因素序列，从而找到语音对应符序列。
67、概率模型用来解决大规模词语的识别问题，词越多识别越差，端对端模型用于复杂场景识别，主要基于RNN、CTC或Attention等模型。
68、阿里云自然语言处理新建项目中的行业类型包括哪几类？保险、经济、餐饮、教育
69、阿里云自然语言处理中创建标注任务需要注意以下哪几项？任务名称、添加标注文件、添加标注人员
70、图像预处理技术灰度化，主要作用是降低彩色特征引起的噪声
71、HOG算法。归一化、计算梯度、求解Cell特征、计算Block特征、计算图像特征。
72、部分词默认识别效果不好、出现了识别不好的网络用语、出现了陌生地名、出现了新的业务专属名词
73、句法分析的结果用句法树来表示
74、R-CNN算法，SVM分类器用来对候选区域进行分类，已确定每个候选区是否包含目标物体。
75、热词分为名称热词和业务专属热词，两类热词可各添加10组，每组500个。
76、需要使用Action参数来指定调用服务。
77、长短时记忆神经网络，LSTM，Long short-Term Memory，是一种循环神经网络模型，主要特点是可以有效解决长期以来问题，优三个门限函数组成，分别是遗忘门、输入门、输出门。遗忘门用于决定遗忘当前时刻的记忆单元中的哪些信息，输入门用于决定接受新的输入信息，输出门决定何时将内部状态传递给下一个时间步。
78、朴素贝叶斯对缺失值不敏感，常用于文本分类
79、基于样本的迁移学习，根据一定的权重生成规则，对数据样本进行重用，来进行迁移学习。
80、TF-IDF算法的主要思想是词的重要性随它在文档中出现的次数增加而上升，随它在语料库中出现的频率升高而下降
81、图像阈值处理的目的是？剔除图像中像素值高于或低于指定值的像素点
82、阿里云实时语音识别采用的声道为单声道
83、减少网络层数可以有效缓解模型过拟合，加入L1/L2正则化，增加dropout
84、CNN适合处理分类问题，语义分析、话题分类
85、构建决策树模型算法有ID3、CART
86、模版工作流、自定义工作流
87、基于层次的聚类算法，不需要预先给定聚类数，但要给定终止条件。包括凝聚法和分裂法，典型算法有CURE、Charmeleon、BIRCH、Agglomerative
88、智能语音交互产品的访问策略不仅可以通过系统策略处理，还可以通过获取Token后再调用智能语音交互服务
89、基于目标域样本的标签来对迁移学习算法进行划分，属于半监督迁移学习
90、实时语音识别可用于视频实时直播字母、实时会议记录、实时法庭庭审记录、智能语音助手；录音文件识别可用于对用户上传的录音文件进行识别，中心语音质检、庭审数据库录入、会议记录总结、医院病历录入；一句话识别是对一分钟以内的语音进行识别，适用于较短的语音交互场景，如语音搜索、语音指令、语音短消息，可集成在各类APP、智能家电、智能助手中。
91、Roi Pooling的作用是适应各种尺度的输入候选区域
92、CLIQUE算法的有点，给定每个属性的划分，单遍数据扫描就可以确定每个对象的网格单元和网格单元计数
93、目标检测算法通过None-Max Suppression对冗余的边界框进行合并。非极大值抑制算法NMS广泛应用于目标检测算法，通过计算交并比，去除超过阈值的框。
94、One-stage的特点有速度相对较快、能够学到物体泛化特征，端到端，适合移动端。SSD、YOLOv3 OverFeat Retina-Net
95、传统图像特征提取，Harris、LBP、SIFT、Gabor、HOG，深度学习方法特征提取。
96、图像预处理的类型有几何变换、图像清理、图像增强。
97、图像检索技术包括基于文本检索、基于图像内容检索
98、H偶个是一种特征点描述算法，计算流程是归一化->计算梯度->求解Cell特征->计算Block特征->计算图像特征
99、PAI人工智能平台支持TensorFlow、Caffeine、MXNet深度学习框架
100、五官编辑（图像人脸融合）输入目标人脸图，参考人脸五官融合到目标人脸
101、热词的类别有人名地名业务专属。
102、拼接法：采用动态规划算法选出最优单元序列，参数法：基于时长模型和声学模型预测声学特征参数
103、自变量个数多于样本数，适合用岭回归。
104、几何变换用于改正图像采集系统的系统误差和仪器位置误差。
105、NoteBook项目不支持导出条形图，支持导出HTML、latex、pdf
106、近场场景，理想环境下的语音交互技术，0.5米
107、RCNN通过对SVM对卷积得到的feature来完成目标类别判断，对于每个类别都会训练一个SVM分类器
108、NPL创建项目后，不能修改项目类型
109、FastSpeech包含Feed-Forward,Transformer,feed-forward transformer block,The length regulator,the duration predictor
110、用门控制循环单元（GRU）来代替长短期记忆（LSTM）构建大训练量模型，主要原因是GRU相比LSTM参数更少
111、DFSMN-CTC-SMBR 和 LC-BLSTM-DNN比较
112、NLP自学习平台服务，NLP基础服务
113、阿里云视觉智能平台SDK支持的语言包括JAVA,Python,C#,Node.js
114、机器学习算法组件有：二分类，多分类，聚类，回归，评估，预测。
115、阿里云自然语言处理NLP自学习平台智能标注支持的文件类型为json
116、类型转换支持可视化方式、PAI命令方式配置组件参数
117、自然语言处理选择base模型包括平台智能模型、自建模型
118、语音合成交互过程包括：鉴权，开始合成，接收合成数据，结束合成四部分
119、PAI—EAS模型在线服务包括PAI-DSA，PAI-AutoLearning、PAI-Studio
120、智能语音识别包括信号处理，语音识别，语音合成
121、基于序列标注法是用于分词任务
122、PAI-EAS是PAI产品为实现一站式模型开发部署应用，正对在线推力场景提供的模型在线服务，支持将模型服务部署在公共资源组或专属资源组，实现基于异构硬件（CPU和GPU）的模型加载和数据请求的实时响应。