- 博客(141)
- 收藏
- 关注
原创 CodeFuse-CodeLlama-34B基座大模型对KSQL支持效果的调研报告
为了评估该模型在实时数据处理领域的潜力,特别是其对ksql的支持效果,本调研旨在通过一系列测试案例,全面验证CodeFuse-CodeLlama-34B模型在处理ksql任务时的准确性和效率。
2024-08-05 10:47:51 893
原创 SenseVoice 语音识别微调技术方案
该模型基于超过40万小时的多样化语音数据训练而成,能够支持超过50种语言的识别,展现出卓越的跨语言识别能力。需要找到finetune.sh脚本,根据自己的实际情况修改参数,如下图所示,一般需要修改的地方有:把使用的模型地址替换成前面下载好的模型路径、把训练和验证使用的数据集路径替换成自己的、指定日志和模型参数文件的输出路径、指定使用的训练脚本为前面下载好的FunASR下的train.py、指定训练轮次、如果担心显存不够用,可以把批次数量batch_size调小一些。
2024-08-02 09:55:51 2152
原创 专业知识判断题练习系列(六)
聚类是一种无监督学习,其目标是将数据集划分为若干个类别,每个类别内部的数据点具有较高的相似性,不同类别之间的数据点差异较大。因此,聚类用于聚类的训练样本的类标记是未知的,而分类所使用的训练样本的类标记是已知的。聚类算法的目标是将数据集分为不同的组,使得每组内部的数据相似度很高,不同组之间的数据相似度很低。回归问题是指预测一个连续变量的值,而线性回归模型中的因变量也是连续的。解析:GIS 算法的收敛速度由计算更新值的步长和误差的大小共同决定,C 值越大,步长越大,但是误差也会变大,收敛速度不一定会更快。
2024-07-18 10:41:59 107
原创 专业知识判断题练习系列(五)
因此,本题的答案是正确的,是 T。解析:根据题目中的信息,年龄和健康之间的相关系数为-1.09,这表明年龄和健康之间是负相关的,也就是说,随着年龄的增长,健康水平会下降。解析:监督学习的学习数据是由特征和标签组成的,其中特征是输入数据的属性或特性,而标签则是对应的输出或结果。解析:在 Pandas 中,可以使用 loc 和 iloc 方法选取特定的行数据,其中 loc 方法使用的是行索引的切片形式,而 iloc 方法使用的是行索引位置的切片形式。因此,说法是正确的。因此,题目中的说法是错误的,答案为 F。
2024-07-18 10:35:36 97
原创 专业知识多选题练习系列(三)
D : 在线学习的一个优点是,如果我们正在建模的功能随着时间的推移而变化(例如,如果我们正在建模用户单击不同 URL 的概率,并且用户的品味/偏好随着时间的推移而变化),在线学习算法将自动适应这些变化。D : 如果您总是预测非垃圾邮件(输出 y=0),那么您的分类器在训练集上的准确度 accuracy 将达到 99%,但在交叉验证集上的准确率会更差,因为它过拟合训练数据。C :使用在线学习时,您必须保存获得的每个新培训示例,因为您将需要重用过去的示例来重新训练模型,即使在将来获得新的训练例子之后也是如此。
2024-07-18 10:28:19 71
原创 专业知识单选题练习系列(九)
解析:选项 A 是正确的,深度学习的概念源于人工神经网络的研究;选项 C不正确,单层神经网络不被认为是深度学习的一种,因为它只有一个隐层,深度学习强调的是多隐层的网络结构。当 C 越大时,表示对误分类的惩罚越严厉,模型的容错能力越小,因此可以使得模型更加倾向于选择复杂的决策边界,进而提高模型的线性可分程度。解析:根据题目中给出的条件,我们可以得出该激活函数输出的值为负数,且非常接近 0,ReLU 和 sigmoid 的值都不可能是负数,tanh 的曲直范围为(-1,1),可以推断出该激活函数是 tanh。
2024-07-18 10:19:59 53
原创 专业知识单选题练习系列(八)
解析:答案解析:k-NN 最近邻方法的基本思想是在训练集中寻找与测试样本最近的 k 个样本,根据这 k 个样本的类别进行投票或计算距离平均值,将得票最高或距离最小的类别作为测试样本的预测类别。解析:闵可夫斯基距离是一种距离度量方式,表示为$$D(x,y)=(\sum_{i=1}^{n}|x_i-y_i|^p)^{\frac{1}{p}}$$当 p=1 时,表示为曼哈顿距离,即$$D(x,y)=\sum_{i=1}^{n}|x_i-y_i|$$因此,当表示为曼哈顿距离时,p 为 1,故选项 A 正确。
2024-07-17 22:09:31 72
原创 专业知识单选题练习系列(七)
解析:KNN 最近邻方法是一种基于实例的学习方法,它的基本思想是:对于一个新的样本,找到训练集中与之最为相似的 k 个样本,然后根据它们的类别进行决策。因此,选项 C 描述错误,答案为 C。解析:ABC 选项都是根据特定的领域知识或规则进行判断,属于专家系统或规则引擎的范畴,而出行方式的判断则需要通过大量的数据和模型训练来完成,属于机器学习或深度学习的范畴。解析:SVM 的时间复杂度与数据集的大小有关,对于大数据集,SVM的训练时间会非常长,但对于小型或中等大小的数据集,则可以使用SVM 来进行分类。
2024-07-17 21:07:25 73
原创 专业知识判断题练习系列(四)
而如果 f 是凹函数,则 Jensen 不等式应该是:E(f(x))<=f(E(x))因此,对于一个凹函数 f,左边部分应该小于等于右边部分。解析:决策树学习是一种基本的分类与回归方法,它是一种逼近离散值目标函数的方法,学习到的函数被表示为一棵决策树。因此,选项中的说法是错误的,答案为 F。25、 [判断] Jessen 不等式 E(f(x))>=f(E(x)),左边部分大于等于右边部分的条件是函数 f 是凸函数,如果 f 是凹函数,左边部分应该是小于等于右边部分。因此,该题的答案是正确的。
2024-07-17 20:54:28 49
原创 专业知识判断题练习系列(三)
因此,题目中的说法是正确的,答案为 T。同一簇内的任意两个对象之间的相似度较高,而不同簇之间的任意两个对象之间的相似度较低,这也是聚类的一个基本特点。解析:Lasso 回归是一种线性回归的优化方法,它在线性回归的基础上,对损失函数增加了一个 L1 正则项,将系数向零压缩,从而实现特征选择的目的,减小过拟合风险,提高模型的泛化能力。解析:对数损失度量函数(LogarithmicLoss)是一个常用的分类问题的损失函数,它的取值范围是$[0,+\infty)$,不可能取负值,因此该说法是错误的。
2024-07-17 20:47:32 54
原创 专业知识多选题练习系列(二)
1、[多选]以下关于蒙特卡洛方法描述正确的是()。A: 蒙特卡洛方法计算值函数可以采用First-visit方法B: 蒙特卡洛方法方差很大C: 蒙特卡洛方法计算值函数可以采用Every-visit方法D:蒙特卡洛方法偏差很大正确答案:A,B,C解析:A选项正确,蒙特卡洛方法可以采用First-visit方法计算值函数,即只计算每个状态第一次出现时的回报值;B选项错误,蒙特卡洛方法方差与采样个数有关,采样个数越大方差越小;C选项正确,蒙特卡洛方法也可以
2024-07-17 20:38:28 56
原创 专业知识单选题练习系列(六)
ii:Leaveoneoutcrossvalidation,即留一法,是一种特殊的 K 折交叉验证,将样本划分为 n 份,每次留一份作为验证集,其余 n-1 份作为训练集,共进行 n 次,时间复杂度为 O(n^2)。解析:本题考查的是图论中的基础算法,需要对各个算法的系数矩阵是否为全幺模矩阵有所了解。解析:阈值越大,分类为 1 的概率就越小,所以分类为 1 的样本数量就会减少,而分类为 0 的样本数量就会增加,因此模型分类的召回率会降低或不变。因此,1 是正确的,2、3、4 是错误的,答案为 A。
2024-07-17 19:57:10 72
原创 专业知识单选题练习系列(五)
C 选项中的permutation 函数与 shuffle 函数类似,也是用于对一个序列进行随机打乱的操作,但是它返回的是一个新的打乱后的序列,而不是在原序列上进行操作。选项 A“根节点”是决策树的最顶端节点,选项 B“父节点”是指一个节点的直接上级节点,选项 C“子节点”是指一个节点的直接下级节点,都不是决策树中分类结果的最末端节点。选项 B 错误,标准化不一定是归一化,可以是将数据集的均值变为 0,方差变为 1。所以选项 A 是正确的选项 C 是错误的,选项 D 是包含正确选项的,但不全面。
2024-07-17 19:47:31 64
原创 专业知识单选题练习系列(四)
因此,选项 C 计算更多变量是一个更好的选择,可以增加模型的复杂度,提高对训练数据的拟合程度。解析:由于数据集中 99%的 negative class 和 1%的 positive class,因此如果我们预测全部为 negative class 时,准确率也会达到 99%,但是这并不能说明我们的模型是好的,因为我们关心的是 positiveclass 的预测准确率。解析:由于预测值有很大的偏差,说明模型出现了欠拟合的情况,因此可以尝试减小正则项λ,增加模型的复杂度,从而提高模型的表现。
2024-07-17 18:27:00 48
原创 专业知识判断题练习系列(二)
具体而言,反向传播算法的过程是先进行前向传播计算出模型的预测值,再计算预测值和真实值的误差,接着从输出层开始反向计算每个参数的梯度。训练集和测试集都来自于同一分布的情况下,模型在测试集上表现良好可以说明模型对于当前数据分布的拟合效果很好,但是在新的数据集上,由于数据分布可能存在变化,因此模型的表现可能会有所下降。因此,为了保证模型的泛化能力,在训练过程中需要进行交叉验证,同时在测试集上表现好的模型还需要在新的数据集上进行验证。因此,学习率需要适当选择,既要保证算法的收敛速度,又要保证收敛到全局最优解。
2024-07-17 18:10:08 84
原创 专业知识判断题练习系列(一)
其次,标准化可以使得模型的参数更加容易确定,加快模型的收敛速度,提高模型的训练效率。解析:是的,可以仅基于该黑箱算法构建一个 k-NN 分类算法,方法如下:1.对于每个新的观察,输入到黑箱算法中得到其最近邻 ti 及其对应的类别标签 ci。解析:首先,超参数的选择确实会对模型的性能产生影响,但并非所有超参数都同等重要,不同的超参数对结果的影响程度是不同的。解析:岭回归是一种经典的线性回归的变形方法,它通过对损失函数增加一个 L2 正则化项来限制参数的大小,从而降低模型的方差,提高模型的泛化能力。
2024-07-17 18:03:54 73
原创 专业知识多选题练习系列(一)
1、[多选]假设我们要解决一个二类分类问题,我们已经建立好了模型,输出是 0 或 1,初始时设阈值为 0.5,超过 0.5 概率估计,就判别为 1,否则就判别为 0;如果我们现在用另一个大于0.5 的阈值,那么现在关于模型说法,正确的是:A : 模型分类的召回率会降低或不变B :模型分类的召回率会升高C : 模型分类准确率会升高或不变D :模型分类准确率会降低正确答案:A,C解析:首先需要明确几个概念:-召回率:在所有实际为正例的样本中,被正确预测为正例的样本数占比。-准确率
2024-07-17 14:58:26 84
原创 专业知识单选题练习系列(三)
选项 A 中,“类似的多个变量”是指变量之间存在较高的相关性,这会导致多重共线性问题,影响模型的稳定性和精确性,因此需要注意。解析:在 SVM 模型中,支持向量是离分割超平面最近的数据点,在线性 SVM 模型中,我们需要找到一个最优的分割超平面,使得该分割超平面能够将两类数据点分开,并且使得离该超平面最近的数据点到该超平面的距离最大。针对该题目,我们可以画出两组数据的散点图,然后根据支持向量的定义(落在在分界面/线上的数据点)找出支持向量,本题答案为:(−1,0),(1,2),(0,0),(1,1)。
2024-07-17 14:42:10 78
原创 专业知识单选题练习系列(二)
解析:根据混淆矩阵的定义可知,TP 表示实际为正例且被预测为正例的样本数,FP 表示实际为负例但被预测为正例的样本数,FN 表示实际为正例但被预测为负例的样本数,TN 表示实际为负例且被预测为负例的样本数。解析:解析:首先,对 X、Y、Z 进行变换,得到新的变量 X',Y',Z':X'=X+2,Y'=Y-2,Z'=Z。Pearson 相关性系数是对变量的线性变换不变的,由于 X’是 X 的线性变换,Y'是 Y 的线性变换,而且 Z'和 Z相等,因此有:D1=C1,D2=C2,D3=C3。
2024-07-17 14:27:06 43
原创 专业知识单选题练习系列(一)
解析:题目解析:1 是错误的,因为高准确率的模型并不一定是好的模型,模型的选择不应该仅仅基于模型的准确率,还需要考虑模型的可解释性、计算时间、资源消耗等因素。C:Word2Vec 得到的不一定都是语义上的同义词,这是错误的,Word2Vec 是通过训练语料中的词语之间的关系,得到每个词语的向量表示,其相似度可。解析:答案解析:A 选项是正确的。C:AdaBoost 算法的一个解释是该算法实际上是前向分步算法的一个实现,在这个方法里,模型是加法模型,损失函数是指数损失,算法是前向分步算法。
2024-07-17 14:12:12 56
原创 专业知识判断题练习系列(十一)
38、 [判断] 你在一个拥有 100 种不同的分类的数据集上训练一个卷积神经网络,你想要知道是否能够找到一个对猫的图片很敏感的隐藏节点(即在能够强烈激活该节点的图像大多数都是猫的图片的节点),你更有可能在第 4 层找到该节点而不是在第 1 层更有可能找到。因此,题目中的说法是正确的,答案为 T。39、 [判断] 面部验证只需要将新图片与 1 个人的面部进行比较,而面部识别则需要将新图片与 K 个人的面部进行比较。的人脸,这个过程需要将新图片与 K 个人的面部进行比较,因此本题的说法也是正确的。
2024-07-17 12:39:25 56
原创 专业知识判断题练习系列(十)
参数共享是指卷积核在不同的位置使用相同的参数,这种特性可以使得模型对于输入的平移、旋转等变换具有一定的不变性。24、 [判断] 有一些函数具有以下特性:(i)当使用浅网络计算时,需要一个大网络(我们通过网络中的逻辑门数量来度量大小),但是(ii)当使用深网络来计算时,我们只需要一个指数级小的网络。25、 [判断] 在学习词嵌入时,我们创建了一个预测的任务,如果这个预测做的不是很好那也是没有关系的,因为这个任务更重要的是学习了一组有用的嵌入词。在使用浅网络计算时,需要一个大网络来实现复杂的功能,所。
2024-07-17 12:36:45 40
原创 专业知识判断题练习系列(九)
19、 [判断] 您的目标是检测道路标志(停车标志、行人过路标志、前方施工标志)和交通信号(红灯和绿灯)的图片,目标是识别这些图片中的哪一个标志出现在每个图片中。具体的做法是随机初始化 K 个簇中心点,然后将每个数据点分配到距离最近的簇中心点所在的簇中,再根据每个簇中的数据点重新计算该簇的中心点,重复以上步骤直至簇中心点不再发生变化或达到预设的迭代次数。20、 [判断] 为了构建一个非常深的网络,我们经常在卷积层使用“valid”的填充,只使用池化层来缩小激活值的宽/高度,否则的话就会使得输入迅速的变小。
2024-07-17 12:33:26 44
原创 专业知识判断题练习系列(八)
对于重叠数据点,SVM 可能无法正确分类所有数据点,因为 SVM 的损失函数只考虑了分类错误的数据点,而对于重叠数据点无法确定其分类。10、 [判断] 在前向传播期间,在层$l$的前向传播函数中,您需要知道层$l$中的激活函数(Sigmoid,tanh,ReLU 等)是什么。7、 [判断] 找到好的超参数的值是非常耗时的,所以通常情况下你应该在项目开始时做一次,并尝试找到非常好的超参数,这样你就不必再次重新调整它们。当模型的方差较高时,说明模型过于复杂,可能出现过拟合的情况,此时可以通过。
2024-07-17 12:29:15 49
原创 专业知识多选题练习系列(八)
错误,梯度检查可以帮助验证反向传播的实现是否正确,无论使用何种优化算法。均互信息是一种衡量特征与类别之间相关性的方法,通过计算特征和类别之间的互信息来衡量特征的重要性。• B : 在倾斜的数据集上(例如,当有更多的正面例子而不是负面例子时),准确度不是一个很好的性能度量,您应该根据准确度和召回率使用 F1 分数。因此,本题的正确答案是 ABC,选项 D 错误。因此,选项 A 和 D 是正确的,选项 B 和 C 是错误的。C 错误,逻辑回归分类。器可以根据应用程序的需求使用不同的阈值,而不是固定的 0.5。
2024-07-17 12:26:17 61
原创 专业知识多选题练习系列(七)
假设你有一个 7x7 矩阵 X,你想计算每个元素的对数,每个元素的平方,每个元素加 1,每个元素除以 4。B:减少训练集中的示例数,减少训练集中的示例数通常会降低模型的性能,因为更少的数据可能不足以代表整个数据集。• A : 由于网络延迟和其他与 map-reduce 相关的开销,如果我们使用 N台计算机运行 map-reduce,与使用 1 台计算机相比,我们可能会得到小于 N 倍的加速。• C :假设你正在训练一个正则化线性回归模型,推荐的选择正则化参数值的方法是选择给出最小训练集误差的值。
2024-07-17 12:23:10 91
原创 专业知识多选题练习系列(六)
D:GBDT 不需要对特征做归一化处理,因为 GBDT 是基于树的算法,树的分裂只与特征的大小顺序有关,与具体的特征取值无关。异常检测算法的性能通常无法与有监督的学习算法相比,因为异常数据通常是少数的,而正常数据占多数。• C : 在决策树中,随着树中节点变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题。• B :如果你有一个带有许多正例子和许多负例子的训练集,那么异常检测算法的性能可能与有监督的学习算法(如支持向量机)一样好。的特征,其权重的大小也会有所不同。
2024-07-16 14:39:10 53
原创 专业知识单选题练习系列(十一)
选项 A 中只重新训练最后一层,因为最后一层是根据具体问题的输出维度进行的定制,它需要根据具体问题进行训练。在迁移学习中,我们通常只需要对预先训练好的神经网络的最后几层进行微调(finetune)来适应特定的问题。22、 [单选] 假设你的输入是 300×300 彩色(RGB)图像,并且你使用卷积层和 100 个过滤器,每个过滤器都是 5×5 的大小,请问这个隐藏层有多少个参数(包括偏置参数)?24、 [单选] 在训练神经网络时,损失函数(loss)在最初的几个 epochs 时没有下降,可能的原因是?
2024-07-16 14:31:36 64
原创 专业知识单选题练习系列(十)
• A:如果你在 256 个例子的 mini-batch 上实现了批标准化,那么如果你要在一个测试例子上进行评估,你应该将这个例子重复 256 次,这样你就可以使用和训练时大小相同的 mini-batch 进行预测。正确答案是 D,因为在评估时,应该使用在训练期间通过指数加权平均值得出的$\mu$和$\sigma^2$来执行所需的标准化。• D:执行所需的标准化,使用在训练期间,通过指数加权平均值得出的$\mu$和$\sigma^2$解析:选项 A 是错误的,因为在评估时不需要使用 mini-batch。
2024-07-16 14:28:50 64
原创 专业知识单选题练习系列(九)
3、 [单选] 已知:-大脑是有很多个叫做神经元的东西构成,神经网络是对大脑的简单的数学表达。代入数据得:$$\frac{(63-7)}{2}+1=29$$ 因为使用了 32 个过滤器,所以最终的输出大小为29x29x32,故选项 A 为正确答案。1、 [单选] 你有一个 63x63x16 的输入,并使用大小为 7x7 的 32 个过滤器进行卷积,使用步幅为 2 和无填充,请问输出是多少?因为按行求和后得到的是一个$4\times1$的列向量,加上 keepdims=True 后,因此,正确答案为 B。
2024-07-16 14:25:29 85
原创 专业知识判断题练习系列(七)
28、 [判断] 对于随机森林和 GradientBoostingTrees,我们可以并行地生成GradientBoostingTrees 单个树,因为它们之间是没有依赖的,GradientBoostingTrees 训练模型的表现总是比随机森林好。因为它们之间是没有依赖的,但是对于 GradientBoostingTrees,不同的树之间是有依赖的,需要按照顺序逐一生成。解析:过拟合指的是模型在训练集上表现很好,但是在测试集或新数据上表现较差的现象,是机器学习中普遍存在的问题。所以,这个说法是错误的。
2024-07-16 14:18:07 58
原创 专业知识判断题练习系列(六)
解析:神经网络并不是一个崭新的领域,它的理论和应用已经有数十年的历史。习之所以崛起,是因为近年来计算能力的提升和数据量的增加,使得深度学习的应用效果。14、 [判断] 模式识别中,马式距离较之于欧式距离的优点的是考虑了模式的分布。息论的交叉熵概念,能够同时考虑特征的预测准确性和特征的复杂度,从而选择最优的特。解析:神经网络的前面的层通常计算更简单的特性,例如边缘、线条等。可以增加数据的多样性,减少模型的方差,从而使模型更加健壮,减少过拟合的风险。而导致的收敛速度慢的问题,可以加速成本函数的优化。
2024-07-16 14:15:32 57
原创 专业知识判断题练习系列(五)
8、 [判断] 你现在用拥有的是 3D 的数据,现在构建一个网络层,其输入的卷积是 32×32×32×1632×32×32×16(此卷积有 16 个通道),对其使用 3232 个3×3×33×3×3 的过滤器(无填充,步长为 1)进行卷积操作,请问输出的卷积是 30×30×30×32。解析:根据题目中的信息,输入的卷积是 32×32×32×16,过滤器尺寸是 3×3×3,步长为 1,无填充,使用了 32 个过滤器。成为一张新的图像,使得新图像的内容与内容图像相似,而风格与风格图像相似。
2024-07-16 14:13:32 39
原创 专业知识多选题练习系列(五)
选项 C 也是正确的,因为上限分析可以让我们知道某个模块的精度提高到一定程度就无法带来整个系统精度的提升,因此可以节省我们的时间和精力。成对删除是针对特定的两个变量,如果其中一个变量存在缺失值,则同时删除这个样本中的另一个变量。解析:在 Q-learning 中,更新公式为:Q(s,a)←(1−α)Q(s,a)+α(r+γmaxa′Q(s′,a′)),其中 α。• A : 在状态 s^'时计算的 Q(s^',a^'),对应的动作 a^'并没有真正执行,只是用来更新当前 Q 值。综上所述,选项 BC 正确。
2024-07-16 14:10:29 34
原创 专业知识多选题练习系列(四)
C.错误,A3C 算法是 on-policy 的算法,即它的策略更新是基于当前策略下的样本来进行的。D.正确,由于 A3C 算法是 on-policy 的算法,因此它只能利用当前策略下的样本来更新策略,不能利用历史策略下的样本。项 C 也是正确的,因为 Q-learning 算法在更新时是不考虑下一步的动作的,而 Sarsa 算法。化学习算法,具体来说,它是 Actor-Critic 算法的并行化版本。法,即 Sarsa 算法更新 Q 值时使用的是当前策略下的动作和下一步的状态的 Q 值,而 Q。
2024-07-16 14:06:55 39
原创 专业知识多选题练习系列(三)
解析:A 选项是错误的,因为将所有权重初始化为 0 会导致每个隐藏单元都输出相同的值,使得神经网络无法学习。B、C、D 选项是正确的。尝试调整学习率可以影响梯度下降的步长,进而影响参数的更新速度,从而找到更优的参数值。假设您的分类器在训练集上有 0.5%的错误,以及测试集上有 7%的错误。对的,CNN 和 RNN 在不同的问题上都有它们的优缺点。选项 B、C、D 都是使用卷积网络的开源实现的常见原因,因此答案为 BCD。• B : 为一个计算机视觉任务训练的参数通常对其他计算机视觉任务的预训练是有用的。
2024-07-16 14:03:06 35
原创 专业知识单选题练习系列(八)
解析:在标准化公式中,分母为$\sqrt{\sigma^2}$,当样本方差为 0 时,分母将出现除以 0的情况,导致无法进行标准化。机器学习中,我们通常会有多个指标需要考虑,但不同的指标可能会存在相互矛盾的问题,比如,在优化准确度的同时可能会牺牲运行时间或内存大小的性能,因此需要在不同指标之间进行权衡取舍。• D:给定n个数据点,如果其中一半用于训练,另一半用于测试,则训练误差和测试误差之间的差别会随着n的增加而减小。解析:A 选项:AdaGrad 使用的是一阶差分,这个说法是正确的。SVM 对噪声敏感。
2024-07-16 13:55:30 44
原创 专业知识单选题练习系列(七)
这是正确的,因为准确度是我们想要最大化的指标,而运行时间和内存大小是我们希望最小化的指标。选项 D 中,将准确度、运行时间和内存大小都视为令人满意的指标,这是不正确的。• D:GPU 所配置的显存的大小,对于在该 GPU 上训练的深度神经网络的复杂度、训练数据的批次规模等,都是一个无法忽视的影响因素。• D:我们使用它将向后传播计算的变量传递给相应的正向传播步骤,它包含用于计算计算激活的正向传播的有用值。• B:我们用它传递前向传播中计算的变量到相应的反向传播步骤,它包含用于计算导数的反向传播的有用值。
2024-07-16 13:51:18 116
原创 专业知识单选题练习系列(六)
根据给出的选项,选 C 是最好的选择,因为 C 选项中的开发集和测试集大小相当,且训练集的大小足够大,可以训练出较好的模型。解析:权重共享是指在神经网络中,多个神经元之间的权重参数是共享的,而不是独立的。• A:Train〔训练集〕 Dev〔开发集〕 Test〔测试集〕6,000,000 1,000,000 3,000,000。• B:Train〔训练集〕 Dev〔开发集〕 Test〔测试集〕6,000,000 3,000,000 6,000,000。因此,选项 A 和 B 都是错误的。
2024-07-16 13:47:18 63
原创 专业知识单选题练习系列(五)
选项 A 中的“全局值”表述不准确,应该是“全局变量”,因为每个神经元的输出值都会受到$\gamma$和$\beta$的影响。选项 C是正确的,因为$\gamma$和$\beta$用来调整每个神经元的输出值,从而使得每个隐藏层的输出值的均值和方差保持稳定。选项 D 中的公式是不正确的,因为$\mu$和。5、 [单选] 你训练了一个系统,其误差度如下(误差度=100%-准确度)训练集误差 4.0%测试集误差 4.5%这表明,提高性能的一个很好的途径是训练一个更大的网络,以降低 4%的训练误差。
2024-07-16 13:42:51 58
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人