大四学生整理:一份“不完美”的数据科学问答清单

640?wx_fmt=png&wxfrom=5&wx_lazy=1


翻译 | shawn

编辑 | 阿司匹林

出品 | 人工智能头条(公众号ID:AI_Thinker)


【人工智能头条导读】随着人工智能的日益火热,数据科学正在变得越来越重要。数据科学的初学者常常会碰到各种概念型的面试问题,为此,加拿大 Ryerson University 一名大四学生 Jae Duk Seo 整理了一份面试问题清单,并根据自己所掌握的知识给出了回答。


要注意的是,Jae Duk Seo 并没有确保每一个答案都是尽善尽美的,但是他列出了很多参考资料,然后给出自己的思考,有时还会对自己的原答案进行纠正。


为什么我们要把这样一篇文章推荐给大家?


因为我们正变得越辣越懒。


熟悉我们的读者肯定知道,我们经常会推荐一些免费的开源项目、学习资源等,但是大部分人都是先马再看。我们私下做的小调查发现,很多读者收藏后,并没有再花时间去学习。而我们之前整理了一些大公司的面试题,希望大家能够积极参与,但是收到的反馈也寥寥无几。


我们希望这样一篇“不够完美”的文章能够激发大家参与的积极性,错了不要紧,重要的从错误中学习。


640?wx_fmt=png


因此,不管你是否只知道某个问题的答案,也不管你的答案正确与否,我们都欢迎大家积极留言,从讨论中学习。


以下内容由人工智能头条编译:


1. 什么是特征向量?


我对特征向量的理解目前非常有限。举例来说,使用标准的卷积神经网络(CNN)和全连接神经网络(FNN)构建一个分类器,CNN 的作用是从图像中提取高级特征(从边缘和角落到脸部等)。在从 CNN 到 FNN 过渡的过程中,我们通常会将图像向量化,得出的向量就称为特征向量。


640?wx_fmt=png



640?wx_fmt=png

来源:Research Gate评论


让我惊讶的是,原始的像素值(pixel values)也可以被当作为特征向量。但是这是讲得通的。接下来我们尝试做一些编程工作:使用 MNIST 数据集创造一个 HOG 特征向量(如果有人想知道 HOG 特征是什么,请点击链接阅读此文https://www.learnopencv.com/histogram-of-oriented-gradients/)。



640?wx_fmt=png

640?wx_fmt=png

左图→图像3的可视化HOG特征

右图→图像6的可视化HOG特征


如上图所示,每张图像的 HOG 特征向量长度都为 2048,当我们将这些向量可视化后,它们就会变成右图。


2. 解释构建决策树的步骤


最近我学习了二叉查找树(Binary Search Tree),虽然我不知道怎么回答这个问题,但是我可以可以尝试给出一些建议:从不同类型的用户那里收集不同结果的信息,然后以树状结构标绘二分答案(binary answers),直到标绘完所有信息。


640?wx_fmt=png

来源:https://www.smartdraw.com/decision-tree/


我对我搜索到的答案不是十分满意,但是我找到了一个教你如何在商业环境中如何绘制决策的YouTube 教程。视频很老,但是很有帮助。


视频地址:

https://www.youtube.com/channel/UCUam9zhEElOl9NXSesyyjtA


3.什么是“根本原因分析”(root cause analysis)?


我认为“root”(根本)这个词是指基础的东西,当我们想指出某件事的核心时我们会用到这个词。因此,我认为“根本原因分析”是搞清某个问题核心原因的过程。


640?wx_fmt=png



640?wx_fmt=png

来源:维基百科


不过,“根本原因分析”并不只是确定核心原因的过程,它还被用于防止同类型的问题再次发生。最终我找到了一篇论文《根本原因分析方法》(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1292997/pdf/bumc0014-0154.pdf),感兴趣的读者可以点击阅读。


4.什么是逻辑回归?


我认为“回归”这个词指的是预测。依我看,线性回归就是找出用来预测未来结果(例如房价)的最佳直线。“逻辑”的话,我只能想到 sigmoid 函数。逻辑回归结合“逻辑”和“回归”,我认为它是对离散值的预测,而不是对连续值的预测。


640?wx_fmt=png

来源:https://www.statisticssolutions.com/what-is-logistic-regression/



640?wx_fmt=png

来源:维基百科


总的来说,逻辑回归是预测分类值的过程,预测的可能是简单的二分类预测值,也可能是复杂的多分类预测值。想知道指数函数和逻辑函数有什么不同的读者,点击此链接☟☟


http://wmueller.com/precalculus/families/1_80.html


640?wx_fmt=png

来源:http://xaktly.com/LogisticFunctions.html


5.什么是推荐系统?


YouTube 的视频推荐板块就是一个很好的推荐系统。算法(很多人将其称为 AI)获取用户过去 2 周或 4 周内看过的视频列表,然后搜索相似内容的视频推荐给用户。在某种程度上,这是一个逻辑回归,因为算法试图预测用户接下来最可能观看的视频类别。



640?wx_fmt=png

来源:维基百科


信息过滤系统这个词我从没听说过,想不到推荐系统只是信息过滤系统的一部分。接下来让我们尝试构建一个简单的推荐系统。


640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

紫色、绿色、黄色圆点 →特定用户喜欢的三种冰淇淋口味

红色圆点 →未知任何历史信息的新用户


假设我们有一家冰淇淋店,在二维网格上用坐标表示我们的每位顾客。x 坐标值在 [0–6] 区间,y 坐标值在 [0–7.5] 区间的顾客喜欢紫色冰淇淋。如果来了一位坐标值在 [2,7.5], [8,15.5] 和 [20, 11] 区间的顾客,我们应该向他推荐哪种口味的冰淇淋?我的方法很简单,构建一个K-近邻算法(KNN)(近邻值为3),让算法预测这位顾客喜欢哪种口味的冰淇淋。


6. 梯度下降法是否总是会在相近点收敛?


不是,梯度下降也会收敛到局部最小点,为了防止这种情况经常发生,激活函数必须是单调函数。


详细解释见这篇文章

https://towardsdatascience.com/google-deepmind-deep-learning-for-medical-image-segmentation-with-interactive-code-4634b6fd6a3a




640?wx_fmt=png


依我愚见,上图是对这个问题最好的回答。


7. A/B测试的目的是什么?


每当我回答采访问题时,似乎总有个问题和 A/B 测试有关。简单来说,A/B 测试的目的是得出:给定环境中存在一处不同时主体(subject)反应会有什么变化。


640?wx_fmt=png

640?wx_fmt=png

来源:维基百科

640?wx_fmt=png

A/B测试(也称分离测试)是比较两个版本的网页,看哪个版本更好。向类似的访问者同时展示两个变量,对两个版本的网页进行比较。转化率更好的版本获胜!(来源:https://vwo.com/ab-testing/ )


上图是网页 A/B 测试的详细定义,但是我认为这个定义可以拓展到不同的行业(例如医药业或物流业等)中。


8. 线性模型的缺点有什么?


线性模型的一个显而易见的优点是简单。如果我们使用 Y = aX + b 这个方程构建一个模型,构建前我们就知道这个模型有多简单。但是,我认为简单也可以成为线性模型的一个缺点。因为线性模型的简单性,我们无法用它对复杂的场景建模。


640?wx_fmt=png

640?wx_fmt=png


线性模型的很多缺点我没有提到,比如对异常点很敏感,有过度拟合的倾向等。我认为我的答案是错误的,因为我们可以使用更加高级的多项式回归模型预测更加复杂的情景,这不是线性回归模型的一个缺点。


640?wx_fmt=png


原文链接:

https://towardsdatascience.com/my-take-on-data-scientist-interview-questions-part-1-6df22252b2e8


如需转载,请联系小编微信1092722531



扫描二维码,关注「人工智能头条」

回复“技术路线图”获取 AI 技术人才成长路线图

640?wx_fmt=jpeg

点击 | 阅读原文 | 查看更多干货内容

阅读更多
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭