数据类职位面试
文章平均质量分 87
稻蛙
这个作者很懒,什么都没留下…
展开
-
【秋招】快手_数据分析岗_面试题整理
1. 不用任何公开参考资料,估算今年新生儿出生数量 1)采用两层模型(人群画像*人群转化):新生儿出生数=Σ各年龄层育龄女性数量*各年龄层生育比率 2)从数字到数字:如果有前几年新生儿出生数量数据,建立时间序列模型(需要考虑到二胎放开的突变事件)进行预测 3)找先兆指标,如婴儿类用品的新增活跃用户数量X表示新生儿家庭用户。Xn/新生儿n为该年新生儿家庭用户的转化率,如...原创 2018-05-21 11:54:41 · 21665 阅读 · 4 评论 -
【校招面经】机器学习与数据挖掘常见面试题整理 part1
注:以下是本人春招时看面经时收集的常见面试题,答案部分是由网上多个信息源整理而成,部分是个人解答。当时整理时只是自己看的,很多没有注明来源地址,后续有时间补上来源,如有侵权请告知。 一、PCA为什么要中心化因为要算协方差。单纯的线性变换只是产生了倍数缩放,无法消除量纲对协方差的影响,而协方差是为了让投影后方差最大。 二、PCA的主成分是什么在统计学中,主成分分析(PCA...原创 2018-07-23 00:12:13 · 11201 阅读 · 1 评论 -
【校招面经】数据库 part1
注:以下是本人春招时看面经时收集的常见面试题,答案部分是由网上多个信息源整理而成,部分是个人解答。当时整理时只是自己看的,很多没有注明来源地址,后续有时间补上来源,如有侵权请告知。 一、SQL Select语句的执行顺序1. from子句来计算关系; 2. where子句基于指定的条件对记录行进行筛选; 3. group by子句将数据划分为多个分组; 4. 使用having子句筛...原创 2018-07-23 00:16:15 · 1902 阅读 · 0 评论 -
【校招面经】统计与概率基础 part1
注:以下是本人春招时看面经时收集的常见面试题,答案部分是由网上多个信息源整理而成,部分是个人解答。当时整理时只是自己看的,很多没有注明来源地址,后续有时间补上来源,如有侵权请告知。 一、p值的含义其实理解起来很简单,基本原理只有3个: 1、一个命题只能证伪,不能证明为真 2、在一次观测中,小概率事件不可能发生 3、在一次观测中,如果小概率事件发生了,那就是假设命题为假证明逻辑就是:...原创 2018-07-23 00:18:21 · 2284 阅读 · 0 评论 -
【校招面经】机器学习与数据挖掘常见面试题整理 part5
五十九、计量经济学中的平稳性 六十、高斯混合分布1. 生成模型2. 认为点是由多个高斯分布产生的,每个点可以归入多个类3. 目标是使观测到的点在生成的高斯分布中出现概率最大 在做参数估计的时候,常采用的方法是 最大似然 。最大似然法就是使样本点在估计的概率密度函数上的概率值最大 。由于概率值一般都很小, N 很大的时候这个连乘的结果非常小,容易造成浮点数下溢。...原创 2018-08-04 15:58:45 · 627 阅读 · 0 评论 -
【校招面经】机器学习与数据挖掘常见面试题整理 part6
六十五、海量的 item 算文本相似度的优化方法 —— simhashfrom:https://blog.csdn.net/chenguolinblog/article/details/50830948背景如何设计一个比较两篇文章相似度的算法?可能你会回答几个比较传统点的思路:一种方案是先将两篇文章分别进行分词,得到一系列特征向量,然后计算特征向量之间的距离(可以计算它们之间的欧氏...原创 2018-08-04 16:01:10 · 934 阅读 · 0 评论 -
【校招面经】计算机基础
一、java中Array和ArrayList区别1)精辟阐述:可以将 ArrayList想象成一种“会自动扩增容量的Array”。2)Array([]):最高效;但是其容量固定且无法动态改变; ArrayList: 容量可动态增长;但牺牲效率;3)建议:基于效率和类型检验,应尽可能使用Array,无法确定数组大小时才使用ArrayList!不过当你试着解决更一...原创 2018-08-04 16:40:03 · 2276 阅读 · 0 评论 -
【校招面经】统计与概率基础 part2
十六、对偶问题线性规划有一个有趣的特性,就是任何一个求极大的问题都有一个与其匹配的求极小的线性规划问题。例;原问题为MAX X=8*Z1+10*Z2+2*Z3s.t. 2*Z1+1*Z2+3*Z3 〈=704*Z1+2*Z2+2*Z3 〈=803*Z1+ 1*Z3 〈=152*Z1+2*Z2 〈=50Z1,Z2,Z3 〉=0Z则其对偶问题为MIN =70*Y...原创 2018-08-04 20:30:08 · 983 阅读 · 0 评论 -
【校招面经】数据库 part2
七、数据库范式1. 1NF:不存在可以分的属性2. 2NF:每一个非主属性依赖于关系模型的某个候选键3. 3NF:不存在非主属性的传递依赖于关系模型的侯选建4. BCNF:每个属性都不存在传递依赖于关系模型的侯选建1NF: 字段是最小的的单元不可再分2NF:满足1NF,表中的字段必须完全依赖于全部主键而非部分主键 (一般我们都会做到)3NF:满足2NF,非主键外的所有字...原创 2018-08-04 20:38:27 · 571 阅读 · 0 评论 -
【校招面经】机器学习与数据挖掘常见面试题整理 part7
七十、势函数法from:https://www.cnblogs.com/huadongw/p/4106290.html势函数主要用于确定分类面,其思想来源于物理。1 势函数法基本思想假设要划分属于两种类别ω1和ω2的模式样本,这些样本可看成是分布在n维模式空间中的点xk。 把属于ω1的点比拟为某种能源点,在点上,电位达到峰值。 随着与该点距离的增大,电位分布迅速减小,即把样本x...原创 2018-08-04 21:32:43 · 933 阅读 · 0 评论 -
【校招面经】机器学习与数据挖掘常见面试题整理 part8
七十六、t-SNEfrom:http://www.datakit.cn/blog/2017/02/05/t_sne_full.htmlt-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出来。此外,t-SNE 是一种非...原创 2018-08-04 21:46:27 · 1466 阅读 · 0 评论 -
【校招面经】阿里巴巴_数据分析岗_面试笔试题
(注:以下题目主要来自牛客网等论坛,解答由个人解答,可能会出现错误,并非标准答案,欢迎大家进行讨论) 1. 请说明随机森林较一般决策树稳定的几点原因 1)bagging的方法,多个树投票提高泛化能力 2)bagging中引入随机(参数、样本、特征、空间映射),避免单棵树的过拟合,提高整体泛化能力 2. 什么是聚类分析?聚类算法有哪几种?请选择一种详细描述其计算原理和...原创 2018-07-21 19:47:46 · 52429 阅读 · 5 评论 -
【校招面经】机器学习与数据挖掘常见面试题整理 part4
五十一、Hinge lossHinge loss 的叫法来源于其损失函数的图形,为一个折线,通用的函数表达式为:L(mi)=max(0,1−mi(w)) 表示如果被正确分类,损失是0,否则损失就是 1−mi(w) 。在机器学习中,Hing 可以用来解 间距最大化 的问题,最有代表性的就是SVM 问题,最初的SVM 优化函数如下:argminw,ζ12||w||2+C∑iζi...原创 2018-07-25 12:43:21 · 1133 阅读 · 1 评论 -
【秋招】招行_数据分析岗_面试题整理
1. kmeans是啥一种em过程的聚类方法,先固定类中心将每个点划分到最近的类中,然后更新类中心,通过这种迭代的方法进行聚类。优点是速度较其它的聚类方法较快,缺点是需要预先设定类的数目,并且对初始化的类中心敏感,对异常值敏感。 2. left join inner join 区别左连接是保留所有左表中的值,右表无对应的值会表示为。内连接是两个表的交集。 3. 常用...原创 2018-05-21 11:55:24 · 18004 阅读 · 2 评论 -
【秋招】今日头条_数据分析岗_面试题整理
1. 做自我介绍,着重介绍跟数据分析相关的经验,还有自己为什么要做数据分析略。 2. 如果次日用户留存率下降了 5%该怎么分析 1)首先采用“两层模型”分析:对用户进行细分,包括新老、渠道、活动、画像等多个维度,然后分别计算每个维度下不同用户的次日留存率。通过这种方法定位到导致留存率下降的用户群体是谁 2)对于目标群体次日留存下降问题,具体情况具体分析。具体分析可以...原创 2018-05-21 11:56:12 · 38392 阅读 · 7 评论 -
【秋招】拼多多_数据分析岗_面试题整理
1. 贝叶斯公式复述并解释应用场景 1)P(A|B) = P(B|A)*P(A) / P(B) 2)如搜索query纠错,设A为正确的词,B为输入的词,那么: a. P(A|B)表示输入词B实际为A的概率 b. P(B|A)表示词A错输为B的概率,可以根据AB的相似度计算(如编辑距离) c. P(A)是词A出现的频率,统计获得 ...原创 2018-05-25 13:15:01 · 44675 阅读 · 10 评论 -
【秋招】饿了么_数据分析岗_面试题整理
1. 一面是群面,群面是让设计一个估算配送时间的模型 影响配送时间的因素:商家出餐速度、配送速度、用户交付速度(配送过程中,商家取餐与交付用户占到配送时长的一半以上。准确预测取餐和交付时间,可以减少骑手等待时间)(参考:https://blog.csdn.net/u013382288/article/details/78395989) 1)商家出餐速度:品类、时段、天气、活动、销量...原创 2018-05-25 15:36:30 · 10909 阅读 · 2 评论 -
【秋招】腾讯_数据分析岗_面试题整理
1. 二叉树题目略 2. 层序遍历算法题 1)由顶向下逐层访问 2)可以用队列存储树,每次打印根节点并将左右节点放进队列(参考:https://www.cnblogs.com/masterlibin/p/5911298.html) 3. 图论中的最大团、连通分量,然后问图划分的算法略 4. 如何判断社区活跃度(基于图),现在想着可能是根据连通...原创 2018-05-27 16:31:26 · 79637 阅读 · 12 评论 -
【秋招】京东_数据分析岗_面试题整理
1. 怎么做恶意刷单检测分类问题用机器学习方法建模解决,我想到的特征有: 1)商家特征:商家历史销量、信用、产品类别、发货快递公司等 2)用户行为特征:用户信用、下单量、转化率、下单路径、浏览店铺行为、支付账号 3)环境特征(主要是避免机器刷单):地区、ip、手机型号等 4)异常检测:ip地址经常变动、经常清空cookie信息、账号近期交易成功率上升等...原创 2018-05-23 11:34:50 · 75986 阅读 · 12 评论 -
【秋招】携程_数据分析岗_面试题整理
1. spark用过吗?那你觉得和MR这两个计算框架中间产生的数据倾斜怎么处理 1)数据倾斜指的是key的分布严重不均,如wordCount中,有80%的数据都是('aaa',1),这样大部分数据交给一个reduce,剩下的20%数据分散到不同的reduce处理 2)造成数据倾斜的原因: a. group by维度小,某值数量多 b. dis...原创 2018-05-24 11:19:46 · 20106 阅读 · 5 评论 -
【秋招】搜狐游戏_数据分析岗_面试题整理
1. 如果现在有个情景,我们有一款游戏收入下降了,你怎么分析。(我说完她说不到位,然后帮我补充了很多,我也问了一点问题,这部分聊了十分钟) 1)两层模型:细分用户、渠道、产品,看到底是哪里的收入下降了 2)指标拆解:收入 = 玩家数量*活跃占比*付费转化率*付费次数*客单价 进一步细分,如玩家数量 = 老玩家数量*活跃度+新玩家数量*留存率等。然后对各个指标与以往的数据进行...原创 2018-05-29 22:14:30 · 5647 阅读 · 0 评论 -
【校招面经】机器学习与数据挖掘常见面试题整理 part2
三十、随机森林如何评估特征重要性衡量变量重要性的方法有两种,Decrease GINI 和 Decrease Accuracy: 1) Decrease GINI: 对于回归问题,直接使用argmax(VarVarLeftVarRight)作为评判标准,即当前节点训练集的方差Var减去左节点的方差VarLeft和右节点的方差VarRight。 2) Decrease Accuracy:对于一棵...原创 2018-07-25 12:36:40 · 1298 阅读 · 0 评论 -
【校招面经】机器学习与数据挖掘常见面试题整理 part3
四十一、请简要说说EM算法有时候因为样本的产生和隐含变量有关(隐含变量是不能观察的),而求模型的参数时一般采用最大似然估计,由于含有了隐含变量,所以对似然函数参数求导是求不出来的,这时可以采用EM算法来求模型的参数的(对应模型参数个数可能有多个),EM算法一般分为2步: E步:选取一组参数,求出在该参数下隐含变量的条件概率值; M步:结合E步求出的隐含变量条件概率,求出似然函数下界函数...原创 2018-07-25 12:41:35 · 1091 阅读 · 0 评论 -
【校招面经】机器学习与数据挖掘常见面试题整理 part9
八十、SVM的核函数from:https://blog.csdn.net/lihaitao000/article/details/51173459SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数. 核函数的定义并不困难,根据泛函的有关理论,只要一种函数...原创 2018-08-04 22:10:31 · 1241 阅读 · 0 评论