算法面试问题归纳
面试知识点
AI-learner6868
Ai从业者,乐于分享,多多指教
展开
-
随机森林的随机性体现和优缺点
随机森林的随机性体现和优缺点1.随机性主要体现在两个方面:2.优点3.缺点:1.随机性主要体现在两个方面:训练每棵树时,从全部训练样本(样本数为N)中选取一个可能有重复的大小同样为N的数据集进行训练(即bootstrap取样)在每个节点,随机选取所有特征的一个子集,用来计算最佳分割方式。2.优点在当前的很多数据集上,相对其他算法有着很大的优势,表现良好它能够处理很高维度(feature很多)的数据,并且不用做特征选择 PS:特征子集是随机选择的在训练完后,它能够给出哪些f原创 2020-11-26 09:20:53 · 5494 阅读 · 0 评论 -
模型特征工程:归一化
特征归一化一、归一化二、归一化的常用方法三、为什么需要对数值型特征做归一化?一、归一化为了消除数据特征之间的量纲影响, 我们需要对特征进行归一化处理, 使得不同指标之间具有可比性。例如, 分析一个人的身高和体重对健康的影响, 如果使用米(m) 和千(kg) 作为单位, 那么身高特征会在1.6~1.8m的数值范围内, 体重特征会在50~100kg的范围内, 分析出来的结果显然会倾向于数值差别比较大的体重特征。 想要得到更为准确的结果, 就需要进行特征归一化。二、归一化的常用方法线性函数归一化(Mi原创 2020-11-25 21:03:47 · 1028 阅读 · 0 评论 -
为什么深度学习的结构特点不利于稀疏特征向量的处理呢?
问题:为什么深度学习的结构特点不利于稀疏特征向量的处理呢?一方面,如果我们深入到神经网络的梯度下降学习过程就会发现,特征过于稀疏会导致整个网络的收敛非常慢,因为每一个样本的学习只有极少数的权重会得到更新,这在样本数量有限的情况下会导致模型不收敛。另一个方面,One-hot 类稀疏特征的维度往往非常地大,可能会达到千万甚至亿的级别,如果直接连接进入深度学习网络,那整个模型的参数数量会非常庞大,这对于一般公司的算力开销都是吃不消的。所以基于上面两个原因,我们往往先通过 Embedding 把原始稀疏特征原创 2020-11-25 20:35:16 · 1721 阅读 · 0 评论 -
对特征进行开方改变了特征分布,模型能否正确拟合训练数据了?
问题:对训练数据中的某项特征进行平方或者开方,是为了改变训练数据的分布。训练数据的分布被改变后,训练出来的模型岂不是不能正确拟合训练数据了?对训练数据中的某个特征进行开方或者平方操作,本质上是改变了特征的分布,并不是训练数据的分布。特征的分布和训练数据的分布没有本质的联系,只要你不改变训练数据 label 的分布,最终预测出的结果都应该是符合数据本身分布的。因为你要预测的是 label,并不是特征本身。而且在最终的预测过程中,这些开方、平方的特征处理操作是在模型推断过程中复现的,本质上可以看作是模型的原创 2020-11-25 20:30:32 · 259 阅读 · 0 评论 -
多模态或者预训练向量对模型的影响
问题 :像多模态或者是通过其它预训练方法得到的向量,直接加到推荐排序模型作为特征的话,为什么效果不明显?多模态指的是在推荐系统中引入视频、图片、语音等多种不同形式的数据和特征,希望来提升推荐效果。在实际的业务应用里,确实存在多模态特征效果不强的问题。问题根源还是因为目前多模态的技术本质上还处于比较初期的阶段。比如用一些 CV 的技术去处理视频图像,识别出一些物品,比如视频里有汽车、有树木、有人物之类。但你要说这些物品对于最终的推荐效果到底有没有影响,比如说视频中出现汽车到底对用户的点击率影响有多大,我原创 2020-11-25 20:25:59 · 302 阅读 · 0 评论 -
word2vec的经验总结
word2vec的经验总结1. word2vec 是word embedding 最好的工具吗?2. word2vec 训练结果的差异主要来自什么因素?2.1 语料影响最大2.2 为什么会出现这种情况呢?2.3 算法参数的影响。3 word2vec 影响速度的因素有哪些?4 怎样评估word2vec训练的好坏?1. word2vec 是word embedding 最好的工具吗?word2vec并非是效果最好的word embedding 工具。最容易看出的就是word2vec没有考虑语序,这原创 2020-08-24 21:10:23 · 1785 阅读 · 1 评论 -
DIN的问题归纳
DIN的问题归纳为什么DIN中采用attention?注意力机制顾名思义,就是模型在预测的时候,对用户不同行为的注意力是不一样的,“相关”的行为历史看重一些,“不相关”的历史甚至可以忽略。首先,我们会得到一个用户的行为序列listing,如果按照之前的做法,我们会一碗水端平的考虑所有行为记录的影响,对应到模型中就是我们会用一个average pooling层把用户交互 过的所有商品的embedding vector平均一下形成这个用户的user vector,机灵一点的工程师最多加一个time原创 2020-08-23 20:23:31 · 1464 阅读 · 0 评论