![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
算法面试
文章平均质量分 61
水木流年追梦
清华大学计算机研究生,专研算法工程
展开
-
互联网公司面试——字节跳动算法
作者:字节跳动内推熊链接:https://zhuanlan.zhihu.com/p/263474711来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。项目相关:1. 有没有观察单个特征和标签之间的联系2. 每次加入一个特征,如果效果没有提升则不使用该特征。那怎么处理特征组合的问题。(组合后可能变好或者差)3. ID embedding 怎么做4. 项目中 Embedding 学习到的是什么,特征交叉的作用是什么5. 为什么使用 DeepFM 来.转载 2021-02-10 17:54:00 · 1190 阅读 · 0 评论 -
互联网公司面试——推荐广告机器学习算法
zhanwei转载 2021-02-10 14:31:24 · 721 阅读 · 0 评论 -
算法工程师面试备战笔记11_朴素贝叶斯分类某个类别概率为0怎么办
题目A1,A2,A3是三个特征,Y是分类结果。A1,A2,A3和Y 均只有0和1两种情况。A1 A2 A3 Y 1 1 0 1 0 1 1 1 1 0 1 0 0 1 0 0 0 0 1 0 1. 朴素贝叶斯(Naive Bayes)为什么朴素?朴素贝叶斯中的“朴素”二字突出了这个算法的简易性。朴素贝叶斯的简易性表现该算法基于一个很朴素的假设:所有的变量都是相互转载 2021-02-10 00:36:09 · 1736 阅读 · 0 评论 -
算法工程师面试备战笔记12_决策树
什么是决策树决策树(decision tree)是一种基本的分类与回归方法。决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。决策树的根结点是所有样本中信息量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。决策树是一种知识表示形式,它是对所有样本数据的高度概括决策树能准确地识别所有样本的类别,也能有效地识别新样本的类别。特征选择ID 年龄 有工作 有自己的房子 信贷情况 类别(是否个.转载 2021-02-10 00:26:24 · 217 阅读 · 0 评论 -
算法工程师面试备战笔记10_精确率(precision)和召回率(recall)
混淆矩阵True Positive(真正, TP):将正类预测为正类数. True Negative(真负 , TN):将负类预测为负类数. False Positive(假正, FP):将负类预测为正类数 → 误报 (Type I error). False Negative(假负 , FN):将正类预测为负类数 → 漏报 (Type II error).精确率(precision)定义为:需要注意的是精确率(precision)和准确率(accuracy)是不一样的,..转载 2021-02-10 00:12:51 · 378 阅读 · 0 评论 -
算法工程师面试备战笔记9_支持向量机(SVM)中的支持向量是什么意思
题目我们在下面的二元标签的数据集上训练一个线性SVM模型+:(−1,1),(1,−1),(−1,−1) −:(1,1),(2,0),(2,1) 这个模型中的支持向量是哪些?A. (−1,1),(1,1),(2,1) B. (−1,1),(−1,−1),(2,1) C. (−1,1),(1,−1),(1,1),(2,0)解析在画分割线区分红绿两类点的时候,可以问自己一个问题,你认不认为所有的点对于分割线的位置都是起决定性作用的?其实在特别远的区域,哪怕你增加10..转载 2021-02-09 22:34:31 · 1381 阅读 · 1 评论 -
算法工程师面试备战笔记8_猜测这种划分最可能是什么聚类算法的结果
以下是各个算法的比较转载 2021-02-09 22:30:01 · 181 阅读 · 0 评论 -
算法工程师面试备战笔记6_监督学习和无监督学习
关键区别是否有监督(supervised),就看输入数据是否有标签(label)。输入数据有标签,则为(有)监督学习,没标签则为无监督学习。知乎的通俗回答作者:王丰链接首先看什么是学习(learning)?一个成语就可概括:举一反三。此处以高考为例,高考的题目在上考场前我们未必做过,但在高中三年我们做过很多很多题目,懂解题方法,因此考场上面对陌生问题也可以算出答案。机器学习的思路也类似:我们能不能利用一些训练数据(已经做过的题),使机器能够利用它们(解题方法)分析未知数据(高考的题目)?.转载 2021-02-09 22:18:16 · 459 阅读 · 1 评论 -
算法工程师面试备战笔记7_数据清洗与特征处理
数据清洗清洗标注数据,主要是数据采样和样本过滤数据采样数据采样,例如对于分类问题:选取正例,负例。对于回归问题,需要采集数据。对于采样得到的样本,根据需要,需要设定样本权重。当模型不能使用全部的数据来训练时,需要对数据进行采样,设定一定的采样率。采样的方法包括随机采样,固定比例采样等方法。样本过滤1.结合业务情况进行数据的过滤,例如去除crawler抓取,spam,作弊等数据。2.异常点检测,采用异常点检测算法对样本进行分析,常用的异常点检测算法包括:偏差检测,例如聚类,最近邻等转载 2021-02-09 22:13:46 · 327 阅读 · 0 评论 -
算法工程师面试备战笔记5_下面哪个不属于数据的属性类别
A 标称 B 序数 C 区间 D 相异关于数据的属性类别的介绍数据集由数据对象组成,一个数据对象代表一个实体。数据对象又称样本、实例、数据点或对象。属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(或特征向量)是用来描述一个给定对象的一组属性。属性有不同类型:标称属性(nominal attribute)、二元属性(binary attribute)、序数属性(ordinal attribute)、 数值属性(numerical attribute)、离散属性与连续属性转载 2021-02-09 20:16:05 · 2381 阅读 · 0 评论 -
算法工程师面试备战笔记4_余弦相似与欧氏距离有什么区别和联系
1)区别假设 2人对三部电影的评分分别是A = [3, 3, 3]和B = [5, 5, 5]那么2人的欧式距离是 根号12 = 3.46, A、B的余弦相似度是1(方向完全一致)。余弦值的范围是[-1, 1], 越接近于1,说明2个向量的方向越相近欧式距离和余弦相似度都能度量2个向量之间的相似度,但是欧式距离从2点之间的距离去考量,余弦相似从2个向量之间的夹角去考量。 从上例可以发出,2人对三部电影的评价趋势是一致的,但是欧式距离并不能反映出这一点,余弦相似则能够很好地反应。余弦...原创 2021-02-09 16:44:32 · 289 阅读 · 0 评论 -
算法工程师面试备战笔记3_某超市研究销售记录发现买啤酒的人很大概率也会买尿布,这属于数据挖掘的哪类问题?
A 关联规则发现 B 聚类 C 分类 D 自然语言处理A 关联规则发现关联规则就是有关联的规则,形式是这样定义的:两个不相交的非空集合X、Y,如果有X-->Y,就说X-->Y是一条关联规则。在题目的例子中,我们发现购买啤酒就一定会购买尿布,{啤酒}-->{尿布}就是一条关联规则。关联规则的强度用支持度(support)和自信度(confidence)来描述。支持度的定义:support(X-->Y) = |X交Y|/N=集合X与集合Y中的项在一条记录中同时出现的次数/数转载 2021-02-09 16:33:19 · 3867 阅读 · 0 评论 -
算法工程师面试备战笔记2_一个完整机器学习项目的流程
1 抽象成数学问题明确问题是进行机器学习的第一步。机器学习的训练过程通常都是一件非常耗时的事情,胡乱尝试时间成本是非常高的。 这里的抽象成数学问题,指的我们明确我们可以获得什么样的数据,目标是一个分类还是回归或者是聚类的问题,如果都不是的话,如果划归为其中的某类问题。2 获取数据数据决定了机器学习结果的上限,而算法只是尽可能逼近这个上限。 数据要有代表性,否则必然会过拟合。 而且对于分类问题,数据偏斜不能过于严重,不同类别的数据数量不要有数个数量级的差距。 而且还要对数据的量级有一个评估,多少个转载 2021-02-09 16:01:26 · 201 阅读 · 0 评论 -
算法工程师面试备战笔记1_如何处理特征向量的缺失值
如何处理特征向量的缺失值1) 缺失值较多缺失值较多.直接将该特征舍弃掉,否则可能反倒会带入较大的噪声,对结果造成不良影响。2) 缺失值较少缺失值较少,其余的特征缺失值都在10%以内,我们可以采取很多的方式来处理:方式1: 把NaN直接作为一个特征,假设用0表示;data_train.fillna(0) 方式2: 用均值填充; 均值填充可能需要取条件均值,例如某训练集中患癌症和不患癌症的数据中,该值的差距很大,那么就应当填充label相同的数据的均值。 d.原创 2021-02-09 15:58:32 · 367 阅读 · 1 评论