机器学习面试
文章平均质量分 65
lgy54321
这个作者很懒,什么都没留下…
展开
-
决策树面试题
决策树几种常用的算法已经如何选择划分的特征常用的几种决策树算法有ID3、C4.5、CART等;其中ID3使用的是信息熵增益选大的方法划分数据,C4.5是使用增益率选大的方法划分数据,CART使用的是基尼指数选小的划分方法划分特征的优缺点ID3:该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。ID3算法往往偏向于选择取值较多的属性,而在很多情况下取值较多的属...原创 2018-12-13 21:41:30 · 2380 阅读 · 0 评论 -
逻辑回归面试题
Q1:逻辑回归的损失函数,为什么要用这个损失函数逻辑回归的损失函数是它的极大似然函数。损失函数一般有四种,平方损失函数,对数损失函数,HingeLoss0-1损失函数,绝对值损失函数。将极大似然函数取对数以后等同于对数损失函数。在逻辑回归这个模型下,对数损失函数的训练求解参数的速度是比较快的。Q2:为什么不选平方损失函数的呢?其一是因为如果你使用平方损失函数,你会发现梯度更新的速度和s...原创 2018-12-10 10:54:53 · 983 阅读 · 0 评论 -
机器学习中的归一化
文章目录机器学习中为什么需要归一化归一化为什么能提高梯度下降求解最优解的速度?归一化可能提高精度归一化常用的方法归一化与其中标准化的区别使用标准化与归一化的场景哪些机器学习书算法不需要归一化机器学习中为什么需要归一化归一化后加快了梯度下降求最优解的速度;归一化有可能提高精度归一化为什么能提高梯度下降求解最优解的速度?如上图所示,蓝色圆圈代表两个特征的的等高线。 左图中两个特征区...原创 2019-01-11 14:16:09 · 483 阅读 · 0 评论 -
评价聚类性能指标
聚类在无监督学习中,训练样本的标记是没有指定的,通过对无标记样本的训练来探索数据之间的规律。其中应用最广的便是聚类,聚类试图把一群未标记数据划分为一堆不相交的子集,每个子集叫做”簇“,每个簇可能对应于一个类别标签,但值得注意的是,这个标签仅仅是我们人为指定强加的,并不是数据本身就存在这样的标签。例如音乐软件对音乐的曲分或者流派进行聚类,可以划分为伤感,轻快等一系列标签,但是这个曲分只是人为加上的...原创 2019-01-13 19:49:48 · 3018 阅读 · 0 评论 -
机器学习复习一(梯度下降)
在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。这里就对梯度下降法做一个完整的总结。梯度 在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。比如函数f(x,y), 分别对x,y求偏导数,求得的梯度向量就是(∂f/∂x, ∂f/∂y)T,简称gr...原创 2019-06-10 21:55:14 · 513 阅读 · 0 评论 -
数据预处理--独热编码(One-Hot Encoding)和 LabelEncoder标签编码
一、问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行one-hot编码i...原创 2019-07-01 22:56:13 · 575 阅读 · 0 评论 -
幸存者游戏
有n个同学围成一圈,其id依次为1~n(n号挨着1号)。现在从1号开始报数,第一回合报到m的人就出局,第二回合从出局的下一个人开始报数,报到m2的同学出局。以此类推,直到最后一个回合报到mn−1的人出局,剩下最后一个同学。输出这个同学的编号。输入格式共一行,包含两个整数n和m。输出格式输出最后剩下的同学的编号。数据范围n≤15,m≤5输入样例:5 2输出样例:5`inn...原创 2019-07-02 18:50:15 · 686 阅读 · 0 评论 -
语言模型(词向量)
语言模型语言模型旨在为语句的联合概率函数P(w1,…,wT)建模, 其中wi表示句子中的第i个词。语言模型的目标是,希望模型对有意义的句子赋予大概率,对没意义的句子赋予小概率。 这样的模型可以应用于很多领域,如机器翻译、语音识别、信息检索、词性标注、手写识别等,它们都希望能得到一个连续序列的概率。对语言模型的目标概率P(w1,…,wT),如果假设文本中每个词都是相互独立的,则整句话的联合概率可...原创 2019-07-03 22:25:02 · 1985 阅读 · 0 评论 -
损失函数
文章目录一、平方损失函数(最小二乘法, Ordinary Least Squares )均方误差ESM均方误差+Sigmoid激活函数:输出层神经元学习率缓慢Sigmoid激活函数:ESM均方误差+Sigmoid激活函数二.交叉熵损失交叉损失的定义1.soft max分类器2.交叉熵损失损失函数(loss function)是用来估量模型的预测值f(x)与真实值Y的不一致程度,它是一个非负实值函...原创 2019-07-05 14:06:10 · 2328 阅读 · 0 评论