机器学习面试小的知识点

最新推荐文章于 2024-09-16 16:56:48 发布

meng_shangjy

最新推荐文章于 2024-09-16 16:56:48 发布

阅读量210

点赞数

分类专栏： python spark 文章标签：概率论机器学习面试

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/meng_shangjy/article/details/120120603

版权

python 同时被 2 个专栏收录

4 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

1.装饰器的作用就是为已经存在的函数或对象添加额外的功能

2.*args 和**kargs区别 *args是元组，**kargs是字典

3.熵：对不同概率分布的刻画，衡量概率分布的不确定性，概率越大，不确定性越大。对概率分布信息含量的衡量，求一个概率分布综合的不确定性 H(p)=-Σplogp 概率分布不确定性的期望值，值越大，概率分布不确定性越大，提供的信息越小

4.伯努利分布的熵 H(p)=-plogp-(1-p)log(1-p)

5.联合熵：与联合概率分布有关对于随机变量x和y，二者的联合概率分布p(x,y) 联合概率分布的熵叫做联合熵 H(x,y)=-Σp(x,y)logp(x,y)

x,y是相互独立的，y原先只有两个概率p2,1-p2,联合概率分布有四个概率，可以认为是将y的每个概率进行分拆，p2被分成p1*p2,(1-p1)*p2,即对于y的每个取值，本身就具有一个不确定性，由于要与x联合起来，就在每个取值的不确定性上又引入了不确定性，不确定性显然增大了 H(x,y)>=H(x)

6.条件熵对于y来说，x的引入增加了多大的熵 H(x|y)=H(x,y)-H(y)

7.交叉熵：衡量两个概率分布的差异一般在神经网络和逻辑回归中作为损失函数

8.相对熵：一般用在生成模型中用于评估生成的分布和真实分布的差距

9.互信息：评估两个分布之间的相似性 I(x,y)=H(x)-H(x|y)

10.基尼系数：任选两个样本，属于不同类别的概率

11.AUC:模型的排序能力正样本排在负样本之前的概率

12.order by是全局排序 sort by是局部排序

13.flatmap map区别：map操作为每个输入值生成一个输出值，而flatmap操作为每个输入值生成一个任意数字（零个或多个）值

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。