![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习面试
文章平均质量分 76
我家大宝最可爱
这个作者很懒,什么都没留下…
展开
-
为什么需要负样本
人类学习的过程中好像只需要指出正样本就可以了,例如交宝宝学习认识猫咪,你告诉他这是猫咪就可以,不需要再告诉他其他的样本,好像自然而然就可以学会。其实人类在学习的时候一直都会有负样本的,例如识别猫咪的时候,桌子,椅子可能就是负样本,等到后面认识小狗的时候,猫咪,桌子椅子可能就是负样本了。假如我们只有正样本,模型在最开始训练的时候都是错误的,随着模型的迭代,准确率逐渐从0到1,最终将所有的样本都判别成正样本,也就是都在线的上方。加入负样本后,模型就可以知道不同类别之间的边界了,不会一股脑的把样本都识别成正的。原创 2024-06-13 22:28:35 · 217 阅读 · 0 评论 -
机器学习面试:从马尔可夫链到MH采样
有一种动物,每天只会吃喝睡,在这三种状态之间来回切换。有一个好事者,立了个摄像头,监控这个动物的每一分钟状态变化做了大量的统计,得到了状态之间的转移概率,并且给出了一个状态转移的概率矩阵。有了这个概率转移矩阵,我们就可以知道下一时刻的状态分布了。假设现在的状态是吃,由于当前的状态是确定的,所以概率为1,初始状态的概率分布就为[1,0,0],那么下一时刻的概率分布是什么呢?这个很好计算,根据贝叶斯定律可得其实更准确的是P(St)=∑P(St∣St−1)原创 2022-10-04 20:34:27 · 703 阅读 · 0 评论 -
机器学习面试:维特比算法
维特比算法主要用来解决篱笆网络,老实讲我第一次听到这个名字是发懵的,网络我是知道的,说白了就是图(迪杰特斯拉算法)但是,篱笆网络是值下面这种一列一列的图,只会前面连接到后面,而且不会跳层连接,可以说是一种非常特殊且友好的图了(正常的图能逼死强迫症)动态规划求最长路径现在问题是要求出从A到E的最长路径。我们都知道dijkstra可以求最短路径,是否可以求最长路径呢?答案好像是不可以的(但是看了评论,有人说用一个最大值减去所有的路径x−=xmax−xx^-=x_{max}-xx−=xmax−x,这样原原创 2020-05-24 23:08:21 · 285 阅读 · 0 评论 -
机器学习面试:tfidf&BM25的理解与应用
TFIDF的应用分析某个元素在整体中的重要性,元素可以是类目,单词等TFIDF的理解给你一篇文章,该如何确定文章中哪些词是关键的呢?一个直接的想法是对整篇文章进行分词,统计每个词出现的次数按照次数进行排序,出现次数越多的词重要性越高import jiebafrom collections import Counterdoc=""""""words = jieba.cut(doc)tf = Counter(words)tf = tf.most_common()print(tf原创 2023-05-13 18:47:44 · 658 阅读 · 0 评论 -
机器学习:交叉熵损失函数
交叉熵损失函数给定一个样本xxx,预测1的概率为p(y=1∣x)p(y=1|x)p(y=1∣x),预测为0的概率为1−p(y=1∣x)1-p(y=1|x)1−p(y=1∣x)。p(y)={yy^=11−yy^=0p(y)=\begin{cases}y & \hat{y}=1 \\1-y& \hat{y}=0\end{cases}p(y)={y1−yy^=1y^=0最终得到一个样本的概率为p(yi)=yi^yi∗(1−yi^)1−yip(y_i)=\hat{y_i}^{y原创 2022-05-05 20:24:11 · 779 阅读 · 0 评论 -
机器学习面试:信息熵
信息编码我所知道的信息量是来源于信息编码,例如,我们有一篇英文文章,我要对这篇文章尽进行二进制编码,以达到压缩文章的效果,我该如何编码。我们知道,ASIIC编码都是使用相同长度的二进制来编码的(8位长),例如, A0100 0001B0100 0010 a0110 0001b0110 0010 10011 000120011 0010可是我们也知道文章中有的字符出现的次数比较原创 2017-07-30 11:58:31 · 1291 阅读 · 0 评论 -
机器学习面试:最大似然估计
假如你要统计学校女生的平均身高,但是你没有能力得到全校女生的数据,你想了想,可以统计你们班女生的身高,然后估计全校女生的平均身高。这其实就是极大然估计的思想。极大似然是指,当模型确定,参数不知时,我们利用采集的信息,反推出最有可能生成这组信息的模型。极大似然有两个假设:模型确定,参数未知样本独立同分布得到这样所有的数据都是由同一个分布(模型)得到的,模型也就可以可以倒推出来。 假设一组样本X原创 2017-07-31 11:16:59 · 457 阅读 · 1 评论 -
机器学习面试:双重差分法(DID)
假设我们有一个广告方案P,没有经过ABTest直接在在一些城市放量了,怎么来判断这个广告的有效性(gmv)呢?能不能直接比较投放广告的城市和没有投放广告的城市之间gmv的差值呢Δgmv=avg(投放广告城市的gmv)−avg(没有投放广告城市的gmv)\Delta_{gmv}=avg(投放广告城市的gmv)-avg(没有投放广告城市的gmv)Δgmv=avg(投放广告城市的gmv)−avg(没有投放广告城市的gmv)这样可以得到两类城市之间gmv的差值。这样其实有个问题,万一投放活动的城市本身gmv就原创 2020-06-02 14:34:40 · 6920 阅读 · 1 评论 -
机器学习面试:假设检验分析
假设检验假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。样本间差异有两种方式导致这两个或几个样本均数(或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成。这两个或几个样本均数(或率)来自不同的总体,即其差别不仅由抽样误差造成,而主要是...原创 2020-04-25 23:46:04 · 2823 阅读 · 0 评论 -
机器学习面试:ARMA模型的简单了解
时间序列预测常用的方法有移动平均法,指数平均法,AR,MA,ARMA等,这类方法比较适用于小规模,单变量的预测,比如某门店的销量预测等,但是这些都要求序列是平稳的。弱平稳序列如果一个时间序列 xtx_txt 满足以下两个条件,则它是弱平稳的:对于所有的时刻ttt ,有E[xt]=μE[x_t]=\muE[xt]=μ ,其中μ\muμ是一个常数。对于所有的时刻ttt和任意的间隔kkk, ...原创 2020-04-07 22:47:02 · 15616 阅读 · 4 评论 -
机器学习面试:L1和L2为什么可以防止过拟合
什么是过拟合过拟合这个意思其实就是提高泛化能力,我们在训练集上整了一个极其复杂的模型,准确率高达99.9999%,但是当把这个模型应用到测试集上的时候,准确率跌到了0.0001%,这种情况就称为过拟合或者说模型的泛化能力差。怎么提高泛化能力看了很多关于L1和L2的文章,上来就是各种数学推导,还有不明所以的图片,L1让参数变为0,L2让参数趋向于0,这怎么就可以提高泛化能力,防止过拟合呢?推...原创 2020-05-05 19:06:11 · 1694 阅读 · 4 评论 -
机器学习面试:决策树疑难杂症
adboost在干什么adboost能有什么思想呢?boost的思想非常简单,原创 2020-05-20 19:55:31 · 634 阅读 · 0 评论 -
机器学习面试:模型评估指标
分类评价指标混淆矩阵pred/labelTrueFalsepositiveTPFPnegativeTNFNTrue和False是真实的标签,positive和negative是预测的值真阳性(TP):诊断为有,实际上也有高血压。伪阳性(FP):诊断为有,实际却没有高血压。真阴性(TN):诊断为没有,实际上也没有高血压。伪阴性(FN):诊断为没有,实际却有高血压。准确率Accruacy准确率非常好理解,预测对的样本占总样本的比例,正的预测为正的,负原创 2021-03-09 22:23:47 · 225 阅读 · 1 评论 -
机器学习面试:交叉特征
1.困惑之源半年前第一次做推荐算法,无意中碰到了一个问题,我使用LR模型对用户和商品进行联合打分,其中使用了所谓的交叉特征,这个问题思考了大半年终于有了一些思路。问题是这样的,我统计了不同用户在不同类目上的点击率,以此作为所谓的交叉特征,并且将点击率做了一个线上表,当用户请求时,直接查询用户历史所有的类目偏好。其中ucucuc表示用户(user)和类目(cate)的交叉特征,这里为点击率,下标表示用户id和类目id用户数码女装美妆u1u_1u1uc11uc_{11}uc11原创 2022-02-14 20:54:08 · 426 阅读 · 0 评论 -
机器学习面试:RL中的策略梯度
1. 策略梯度这是在看策略梯度算法时产生的一个困惑,假如我们有一个策略θ\thetaθ,通过这个策略可以跟环境交互,产生一系列的样本τ=τ1,τ2...τN\tau={\tau_{1},\tau_{2}...\tau_{N}}τ=τ1,τ2...τN,这个策略得到的分数为Rθ‾=∑τR(τ)pθ(τ)=Eτ∼pθ[R(τ)]\begin{aligned}\overline{R_\theta}&=\sum_{\tau}R(\tau)p_\theta(\tau)\\&=E_{\ta原创 2022-02-22 11:09:34 · 891 阅读 · 0 评论 -
机器学习面试:牛顿法为什么比梯度下降法更快
泰勒展开式就是使用多项式函数在x0x_0x0处逼近函数f(x)f(x)f(x),即在x0x_0x0处f(x)f(x)f(x)等于泰勒展开式。虽然是废话,但是一定要好好思考,这个才是核心1. 梯度下降法为什么可以求极值a. 梯度的定义我们通常称在函数f(x)f(x)f(x)某个点上x0x_0x0的变化率为导数,通常可以求出这个点的切线,一般叫斜率,即f′(x0)=limΔyΔx=limf(x0+Δx)−f(x0)Δxf'(x_0)=lim \frac{\Delta y}{\Delta x}=li原创 2022-04-07 11:58:37 · 155 阅读 · 0 评论 -
机器学习面试:FM中Embeding的理解
1.tf.nn.embedding_lookup这个函数的意义非常的简单,主要就是用来查询# embeddingembedding = tf.constant( [[0.21,0.41,0.51,0.11]], [0.22,0.42,0.52,0.12], [0.23,0.43,0.53,0.13], [0.24,0.44,0.54,0.14]],dtype=tf.float32)feature_batch = tf.constant原创 2022-04-13 11:56:16 · 1353 阅读 · 0 评论 -
机器学习面试:标准化和归一化
这个真的是让人困惑,分别解释一下,首先说一下方差和均值μ=E(x)σ=D(x) \begin {aligned}\mu&=E(x) \\\sigma &= \sqrt{D(x)}\end {aligned}μσ=E(x)=D(x)1. 归一化为什么叫归一化,归一化顾名思义就是将数据转换到0~1之间x′=x−xminxmax−xmin=xxmax−xmin−xminxmax−xmin=kx−cx'=\frac{x-x_{min}}{x_{max}-x_{min}}=\fra原创 2020-08-20 12:48:22 · 1172 阅读 · 4 评论