面试
文章平均质量分 74
yanglee0
这个作者很懒,什么都没留下…
展开
-
时间序列任务
一、时间序列预测比较常见的工具方法通常来说,时间序列预测工具方法可以归结为三大类:1、一类是基于业务场景理解的因子预测模型,2、一类是传统时间序列预测模型,比如均值回归、ARIMA、指数平滑预测法(比如Holt-Winters)等,3、一类是机器学习模型,比如支持向量机、树模型(比如GBM、QRF)、神经网络模型(比如RNN、CNN)等。2.1 基于业务场景理解的因子预测模型基于因子的时序预测是一种传统的预测手法,在一些特定场景有着比较好的表现,比如某条业务线刚起步,历史数据的积累有限的时候。同转载 2021-09-23 16:16:17 · 1020 阅读 · 0 评论 -
树模型和神经网络比较
模型的选择上来看:1、如果不强调绝对的解释度,尽量避免单课决策树,用集成树模型;2、在集成树模型上,优先用xgboost;3、在中小数据集上,优先选择集成树模型。大数据集上用神经网络;4、在需要模型解释度的项目上,优选使用树模型;5、在项目时间较短的项目上,如果数据质量低(大量缺失值、噪音等),优先使用集成树模型;6、在硬件条件有限以及机器学习知识有限的前提下,优选选择树模型;7、对于结构化较高的数据,尤其是语音、图片、语言等,优先使用神经网络模型。一般来说,在小数据集多特征下,集成的树模型原创 2021-09-23 15:45:34 · 1387 阅读 · 0 评论 -
面向对象,面向过程。写一个实现matrix里元素相加的类。
class Matrix(object): def __init__(self, data, m, n): # 定义对象属性 data为矩阵。m行,n列 self.data = data self.m = m self.n = n # + def __add__(self, other): # 定义对象技能 res = Matrix([0]*self.m*self.n, self.m, self.n)原创 2021-08-11 11:00:01 · 64 阅读 · 0 评论 -
#简历:CCKS2021—通用百科知识图谱实体类型推断
项目介绍:(项目背景、项目难点、怎么做的、其中难点具体是怎么解决的,突出下解决思路以及实现的效果是怎么样的)首先这个项目是基于通用百科知识图谱进行实体类型的推断,那么这个项目的难点其实在于一点标注数据都没有,而且实体类型非常多,但并不属于多分类任务,而是多标签任务,就是说对于一个实体,可能是存在多个标签。怎么做的:对于纯无标注的数据,结合业务理解构建种子词; 通过种子词构建 模型训练集;搭建基于 ERNIE 的多标签学习的代码框架,训练模型进行实体类型推断; 对推断的实体类型进行规则等辅助的后处理。原创 2021-07-15 19:24:17 · 293 阅读 · 0 评论 -
3、梯度消失/梯度爆炸怎么办
首先,正常参数设置情况下,发生这种情况的概率是很小的。一般发生这种情况,首先怀疑下自己模型的设计是否有漏洞或者有缺陷,再去尝试下面的几种方法。比如多头自注意力中的维度和头数必须要能整除,这在维度300的glove向量中,会经常因为维度和头数不匹配而导致梯度消失/梯度爆炸问题的出现。如果确定自己模型中没有漏洞或者缺陷了,再去往一下方法上去想:1、clip,梯度裁剪,控制梯度的阈值,pytorch中有专门的函数可以调用。2、激活可汗可以换成tanh或者其他3、优化器可以换一换4、加BN、dropout原创 2021-07-09 10:24:29 · 109 阅读 · 0 评论 -
机器学习面经四、深度学习
四、深度学习1、BatchNormalization的作用神经网络在训练的时候随着网络层数的加深,激活函数的输入值的整体分布逐渐往激活函数的取值区间上下限靠近,从而导致在反向传播时低层的神经网络的梯度消失。而BatchNormalization的作用是通过规范化的手段,将越来越偏的分布拉回到标准化的分布,使得激活函数的输入值落在激活函数对输入比较敏感的区域,从而使梯度变大,加快学习收敛速度,避免梯度消失的问题。2、梯度消失在神经网络中,当前面隐藏层的学习速率低于后面隐藏层的学习速率,即随着隐原创 2021-06-01 11:36:25 · 711 阅读 · 0 评论 -
机器学习面经三、机器学习一些碎点
三、机器学习1、Scikit-learn1、Focal Loss 介绍一下2、过拟合的解决方法3、方差偏差的分解公式4、问题:对应时间序列的数据集如何进行交叉验证?5、问题:正负样本不平衡的解决办法?评价指标的参考价值?6、迁移学习7、数据不平衡怎么办?8、AUC的理解9、AUC的计算公式10、生成模型和判别模型的区别11、过拟合的解决方法12、特征选择怎么做13、怎么防止过拟合14、L1和L2正则15、ID3树用什么指标选择特征16、特征工程的问题17、给了个链接线上写原创 2021-05-26 09:20:10 · 246 阅读 · 0 评论 -
机器学习面经二、机器学习算法
二、机器学习算法1、处理分类问题常用算法1、交叉熵公式2、LR公式3 LR的推导,损失函数4、逻辑回归怎么实现多分类5 、SVM中什么时候用线性核什么时候用高斯核?6、什么是支持向量机,SVM与LR的区别?7.监督学习和无监督学习的区别8.机器学习中的距离计算方法?9、问题:朴素贝叶斯(naive Bayes)法的要求是?10、问题:训练集中类别不均衡,哪个参数最不准确?11、问题:你用的模型,最有挑战性的项目12、问题:SVM的作用,基本实现原理;13、问题:SVM的硬间隔,软原创 2021-05-23 20:04:56 · 225 阅读 · 0 评论 -
机器学习面经一、数学基础
一、数学基础:1、微积分1、SGD,Momentum,Adagard,Adam原理SGD为随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行更新。Momentum参考了物理中动量的概念,前几次的梯度也会参与到当前的计算中,但是前几轮的梯度叠加在当前计算中会有一定的衰减。Adagard在训练的过程中可以自动变更学习的速率,设置一个全局的学习率,而实际的学习率与以往的参数模和的开方成反比。Adam利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,在经过偏置的校正原创 2021-05-23 15:09:44 · 123 阅读 · 0 评论 -
BN、LN、dropout、神经元
一、过拟合、欠拟合二、BN三、LN四、dropout原创 2021-06-28 14:23:17 · 1088 阅读 · 0 评论 -
1、正负样本不平衡问题如何解决?
1、过采样、欠采样的方式对不平衡的正负样本进行采样。2、正负样本各自在进行训练时,设置不用的惩罚系数。2、集成的方式:例如,在数据集中的正、负样本分别为100和10000,比例为1:100。此时可以将负样本(类别中的大量样本集)随机分为100份(当然也可以更多),每份100条数据;然后每次形成训练集时使用所有的正样本(100条)和随机抽取的负样本(100)条形成新的数据集。如此反复可以得到100个训练集和对应的训练模型。4、若极其不平衡,可以考虑把任务转换成异常检测问题。5、在评价指标上,选用ROC原创 2021-07-08 14:06:20 · 5827 阅读 · 0 评论