
算法工程师面经
以面试岗位为梳理主线,整理面试之前必看的面试题目,给出高频的面试知识点和面试题。涵盖:ML、coding、Big Data、Logic & Probability、CS subjects和DL六部分内容。
Datawhale
一个开源的学习组织
展开
-
条件随机场CRF
Author: 李文乐;Email: cocoleYY@outlook.comDatawhaleCRF简介条件随机场(conditional random field,简称 CRF)是给定一组输入随机变量条 件下另一组输出随机变量的条件概率分布模型,其特点是假设输出随机变量构成马尔可夫随机场,是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列...原创 2019-07-07 22:11:07 · 1586 阅读 · 0 评论 -
HMM
Author: 李文乐;Email: cocoleYY@outlook.comDatawhale直观理解马尔可夫链(英语:Markov chain),又称离散时间马尔可夫链(discrete-time Markov chain,缩写为DTMC),因俄国数学家安德烈·马尔可夫(俄语:Андрей Андреевич Марков)得名,为状态空间中经过从一个状态到另一个状态的转换的随机...原创 2019-07-06 18:07:16 · 1238 阅读 · 0 评论 -
评测指标(metrics)
评测指标(metrics)metric主要用来评测机器学习模型的好坏程度,不同的任务应该选择不同的评价指标, 分类,回归和排序问题应该选择不同的评价函数. 不同的问题应该不同对待,即使都是 分类问题也不应该唯评价函数论,不同问题不同分析.回归(Regression)均方误差(MSE)(1)l(y,y^)=1n∑i=1n(yi−y^i)2l(y, \hat{y})=\frac{1}...原创 2019-07-05 21:06:45 · 27928 阅读 · 10 评论 -
朴素贝叶斯(NaïveBayes)
Author: Silly_0903;DatawhaleNaïveBayes简介基于贝叶斯方法,通过先验概率,计算并选择最大的后验概率。核心公式P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)其中:P(Y)为先验概率(prior);P(X|Y)为在样本为Y的前提下,X的条件概...原创 2019-07-05 10:21:33 · 1169 阅读 · 0 评论 -
支持向量机(SVM)
SVM简介SVM,Support Vector Machine,它是一种二分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略便是间隔最大化,最终可转化为一个凸二次规划问题的求解。这里涉及了几个概念,二分类模型,线性分类器,间隔最大化,凸二次规划问题。二分类模型:给定的各个样本数据分别属于两个类之一,而目标是确定新数据点将归属到哪个类中。线性分类器:分割样本点的分...原创 2019-07-05 00:25:13 · 1840 阅读 · 0 评论 -
协同过滤(collaborative filtering)
Author: Summer;Email: huangmeihong11@sina.comDatawhale协同过滤简介协同过滤是推荐算法中最常用的算法之一,它根据user与item的交互,发现item之间的相关性,或者发现user之间的相关性,进行推荐。比如你有位朋友看电影的爱好跟你类似,然后最近新上了《调音师》,他觉得不错,就会推荐给你,这是最简单的基于user的协同过滤...原创 2019-07-03 00:26:16 · 2118 阅读 · 0 评论 -
word2vec
Author: kangbingbing;Email: kangb93@126.comDatawhaleword2vec简介Word2vec是Google实现word embedding的一种具体的方式。因为速度快效果好,而广为人知。 而Word embedding是一个普适的概念或者任务,即用向量来表示字或词,一般也称为词嵌入。核心公式:简单来说,Word2Vec就是“两个...原创 2019-06-24 09:00:01 · 1404 阅读 · 0 评论 -
逻辑斯蒂回归(Logistics Regression)
Author: 吕雪杰,xiaoran;DatawhaleLogistics Regression简介逻辑回归是在数据服从伯努利分布的假设下,通过极大似然的方法,运用梯度下降法来求解参数,从而达到将数据二分类的目的。核心公式 对于给定的数据集(xi,yi)i=1N,y∈0,1(x_i,y_i)^N_{i=1},y \in {0,1}(xi,yi)i=1N,y∈0,1 p(y=...原创 2019-06-21 17:22:54 · 1855 阅读 · 5 评论 -
K-means聚类算法
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...原创 2019-06-21 09:35:44 · 1831 阅读 · 0 评论 -
gbdt lr
gbdt lrgbdt+lr是facebook提出在线广告模型,我们知道LR之前在广告和推荐系统由于其快速的计算而被广泛使用,使用由于lr是线性模型,其模型表现能力不强,需要做大量的特征工程。facebook提出提出使用决策树进行特征embedding。为了提升线性分类器的准确度,有两种方法进行特征变换:对于连续特征。先进行离散化bin,然后把bin的编号作为离散型特征。这样的话,...原创 2019-06-18 22:02:51 · 547 阅读 · 0 评论 -
树模型集成学习(Tree Embedding)
树模型集成学习集成学习主要有两个思想,分别是bagging和boosting。树模型的集成模型都是使用树作为基模型,最常用的cart树,常见的集成模型有RandomForest、GBDT、Xgboost、Lightgbm、Catboost。概要介绍RandomForest随机森林(Random Forest,RF)是Bagging的一个扩展变体。RF在以决策树为基学习器构建Bagging...原创 2019-06-16 20:30:02 · 4330 阅读 · 0 评论 -
频繁模式(frequent pattern)
Datawhale频繁模式(frequent pattern)频繁模式一般是指频繁地出现在数据集中的模式。这种频繁模式和关联规则是数据挖掘中想要挖掘的知识。我们都知道一个很有趣的故事,就是啤酒和尿布的故事,在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品,会经常出现在同一个购物篮中,且大多出现在年轻的父亲身上。分析背后原因是,在美国有婴儿的家庭中,一般是母亲在家中照看...原创 2019-06-13 21:40:13 · 8728 阅读 · 0 评论 -
集成学习-Adaboost
Author: 鲁力;Email: jieyuhuayang@foxmail.comDatawhaleAdaboost 算法简介集成学习(ensemble learning)通过构建并结合多个学习器(learner)来完成学习任务,通常可获得比单一学习器更良好的泛化性能,特别是在集成弱学习器(weak learner)时。集成学习两大类:以bagging、Random For...原创 2019-06-11 23:33:56 · 700 阅读 · 0 评论 -
决策树(Decision Tree)
决策树是机器学习最常用的算法之一,它将算法组织成一颗树的形式。其实这就是将平时所说的if-then语句构建成了树的形式。 这个决策树主要包括三个部分:内部节点、叶节点和边。内部节点是划分的属性,边代表划分的条件,叶节点表示类别。构建决策树 就是一个递归的选择内部节点,计算划分条件的边,最后到达叶子节点的过程。原创 2019-05-27 16:10:52 · 1374 阅读 · 0 评论