人工智能面试
人工智能面试与各种面试
飒白
这个作者很懒,什么都没留下…
展开
-
熵、联合熵、条件熵、KL散度、互信息定义
熵在物理中是用于衡量一个热力学系统的无序程度,表达式为△S=Q/T,其中Q是吸收或者释放的热量,T是温度。计算机领域将其定义为离散随机事件出现的概率。一个系统越是有序信息熵就会越低;反之,系统越是混乱,信息熵就越高。「联合熵」 两个随机变量X,Y的联合分布可求得联合熵。「条件熵」 在随机变量X发生的前提下,随机变量Y带来的新的熵,即为Y的条件熵。其含义是衡量在已知随机变量X的条件下随机变量Y带来的新的熵即为Y的条件熵。「KL散度」 两个概率分布(probability distribution)间原创 2020-07-05 09:35:21 · 538 阅读 · 0 评论 -
什么是数据不平衡问题,应该如何解决
数据不平衡又称样本比例失衡,比如二分类问题,如果标签为1的样本占总数的99%,标签为0的样本占比1%则会导致判断「失误严重」,准确率虚高。常见的解决不平衡问题的方法如下。「数据采样」 数据采样分为上采样和下采样,上采样是将少量的数据通过重复复制使得各类别比例均衡,不过很容易导致过拟合问题,所以需要在新生成的数据中加入随机扰动。 下采样则相反,下采样是从多数类别中筛选出一部分从而使得各类别数据比例维持在正常水平,但容易丢失比较重要的信息,所以应该多次随机下采样。 「数据合成」是利用已有样本的特征原创 2020-07-05 09:34:34 · 7391 阅读 · 0 评论 -
如何判断函数凸或非凸?
首先定义凸集,如果x,y属于某个集合M,并且所有的θx+(1-θ)f(y)也属于M,那么M为一个凸集。如果函数f的定义域是凸集,并且满足f(θx+(1-θ)y)≤θf(x)+(1-θ)f(y)则该函数为凸函数。如果函数存在二阶导并且为正,或者多元函数的Hessian矩阵半正定则均为凸函数。「注意」:中国大陆数学界某些机构关于函数凹凸性定义和国外的定义是相反的。Convex Function...原创 2020-04-17 12:13:00 · 8439 阅读 · 0 评论 -
机器学习中,常用的损失函数有哪些?
「(1) 0-1 loss」记录分类错误的次数。「(2)Hinge Loss」最常用在SVM中「最大优化间隔分类」中,对可能的输出t=±1和分类器分数y,预测值y的hinge loss定义如下:L(y)=max(0.1-t*y)「(3)Log Loss对数损失」对于「对数函数」,由于其具有「单调性」,在求最优化问题时,结果与原始目标一致,在含有乘积的目标函数中(如极大似然函数),通过「...原创 2020-04-16 08:44:13 · 1205 阅读 · 0 评论 -
常用梯度下降法与优化器都有什么?
机器学习中大部分为优化问题,而绝大部分优化问题都可以使用梯度下降法处理。梯度下降法的数学原理是函数沿着梯度方向具有最大变化率,那么在优化目标函数时沿着负梯度方向去减少函数值,以此达到优化目标。通过迭代的方式寻找最优参数,最优参数是指是目标函数达到最小值时的参数。如果目标函数是凸函数,那么梯度下降的解是全局最优解,不过在一般情况下,梯度下降无法保证全局最优。Q1 随机梯度下降与小批量随机梯度...原创 2020-04-15 09:15:06 · 620 阅读 · 0 评论 -
在机器学习中,偏差与方差是什么?
偏差度量了学习算法的期望与真实结果的偏差,刻画了算法本身的拟合能力,方差度量了同样大小的训练集的变动所导致的学习性能的变化。偏差用于描述模型的拟合能力,方差用来描述模型的稳定性。当训练度不足的时候,偏差主导模型的泛化误差;当训练进入后期,模型的拟合能力增强,方差主导模型的泛化误差;当训练足够的时候,如果拟合能力过强会导致过拟合。Q1 泛化误差、偏差、方差与噪声之间的关系学习器在训练集...原创 2020-04-15 09:14:29 · 772 阅读 · 0 评论 -
过拟合、欠拟合与正则化都是什么?
拟合与欠拟合的区别是什么,什么是正则化欠拟合指的是模型不能够再训练集上获得足够低的训练误差,往往由于特征维度过少,导致拟合的函数无法满足训练集,导致误差较大。过拟合指的是模型训练误差与测试误差之间差距过大;具体来说就是模型在训练集上训练过度,导致泛化能力过差。所有为了减少测试误差的策略统称为正则化方法,不过代价可能是增大训练误差。Q2 解决欠拟合的方法有哪些降低欠拟合风险主要有以下3类方...原创 2020-04-15 09:13:44 · 445 阅读 · 0 评论 -
特征降维主要包括什么?
主成分分析法(PCA)PCA是一个将数据变换到一个新的坐标系统中的线性变换,使得任何数据的投影的第一大方差在第一个坐标(第一主成分)上,第二大方差在第二个坐标(第二主成分)上,以此类推。其作用只要是为了让映射后得到的向量具有最大的不相关性。就是说PCA追求的是再将位置后能够最大化保持数据的内在信息。线性判别分析法(LDA)LDA是一种有监督的降维方法,主要是将高维的模式样本投影到最...原创 2020-04-15 09:13:01 · 1014 阅读 · 0 评论 -
特征选择主要包括什么?
特征选择是非常关键的步骤,选入大量的特征不仅会降低模型效果,也会耗费大量的计算时间,而漏选的特征也会直接影响到最终的模型结果。一般情况下主要利用以下办法进行特征选择。1.方差选择法假如某列特征变化一直很平缓,所以说明这组特征对预测结果影响不大,所以应该计算出各个特征的方差选择方差大于自身阈值的特征。2.相关系数,统计检验相关系数或者统计检验都可以用来特征选择。3.互信息法互信息法也经常...原创 2020-04-15 09:12:32 · 1187 阅读 · 0 评论 -
数据预处理主要包括什么?
无量纲化无量纲化主要解决数据的量纲不同的问题,使不同的数据转换到同一规格,常见的方法有标准化和区间缩放法。标准化的假设前提是特征值服从正态分布。区间放缩法利用了边界值信息,将特征的取值区间缩放到某个特点的范围,列如[0,1]等。(1) 标准化理论上,标准化适用于服从正态分布的数据,目前很多工程都依赖大数据,所以在样本足够多的情况下,工程师往往直接使用标准化对数据进行无量纲化预处理,在深度...原创 2020-04-15 09:11:55 · 10092 阅读 · 0 评论 -
什么是判别式和生成式模型?
按照任务类型可分为:回归模型:例如预测明天的股价。分类模型:将样本分为两类或者多类。结构化学习模型:输出的不是向量而是其他结构。按照学习理论可分为:监督学习:学习的样本全部具有标签,训练网络得到一个最优模型。无监督学习:训练的样本全部无标签,例如聚类样本。半监督学习:训练样本部分有标签。强化学习:智能体与环境进行交互获得奖励来进行训练的一种模式,环境不会判断是否正确,而是会不...原创 2020-04-15 08:59:29 · 285 阅读 · 0 评论 -
分类问题常用的性能度量指标有哪些?
常用的性能度量指标有:精确率、召回率、F1、TPR、FPR。预测为真预测为假真实为真TP(true positive)FN(false negative)真实为假FP(false positive)TN(true negative)精确率Precision=TP/(TP+FP)召回率Recall=TP/(TP+FN)真正例率即为正例被判断为正例的概率...原创 2020-04-15 09:09:53 · 2528 阅读 · 0 评论 -
回归问题常用的性能度量指标有哪些?
1)均方误差:是反映估计值与被估计量之间差异程度的一种度量。2)RMSE均方根误差:观测值与真值偏差的平方和与观测次数m比值的平方根,用来衡量观测值同真值之间的偏差。3)SSE和方误差4)MAE:直接计算模型输出与真实值之间的平均绝对误差5)MAPE:不仅考虑预测值与真实值误差,还考虑了误差与真实值之间的比例。6)平均平方百分比误差7)决定系数人工智能更多面试问题...原创 2020-04-15 09:09:20 · 3683 阅读 · 0 评论 -
机器学习如何分类?
按照任务类型可分为:回归模型:例如预测明天的股价。分类模型:将样本分为两类或者多类。结构化学习模型:输出的不是向量而是其他结构。按照学习理论可分为:监督学习:学习的样本全部具有标签,训练网络得到一个最优模型。无监督学习:训练的样本全部无标签,例如聚类样本。半监督学习:训练样本部分有标签。强化学习:智能体与环境进行交互获得奖励来进行训练的一种模式,环境不会判断是否正确,而是会不...原创 2020-04-15 09:08:43 · 315 阅读 · 0 评论