1.装饰器的作用就是为已经存在的函数或对象添加额外的功能
2.*args 和**kargs区别 *args是元组,**kargs是字典
3.熵:对不同概率分布的刻画,衡量概率分布的 不确定性,概率越大,不确定性越大。对概率分布信息含量的衡量,求一个概率分布综合的不确定性 H(p)=-Σplogp 概率分布不确定性的期望值,值越大,概率分布不确定性越大,提供的信息越小
4.伯努利分布的熵 H(p)=-plogp-(1-p)log(1-p)
5.联合熵:与联合概率分布有关 对于随机变量x和y,二者的联合概率分布p(x,y) 联合概率分布的熵叫做联合熵 H(x,y)=-Σp(x,y)logp(x,y)
x,y是相互独立的,y原先只有两个概率p2,1-p2,联合概率分布有四个概率,可以认为是将y的每个概率进行分拆,p2被分成p1*p2,(1-p1)*p2,即对于y的每个取值,本身就具有一个不确定性,由于要与x联合起来,就在每个取值的不确定性上又引入了不确定性,不确定性显然增大了 H(x,y)>=H(x)
6.条件熵 对于y来说,x的引入增加了多大的熵 H(x|y)=H(x,y)-H(y)
7.交叉熵:衡量两个概率分布的差异 一般在神经网络和逻辑回归中作为损失函数
8.相对熵:一般用在生成模型中用于评估生成的分布和真实分布的差距
9.互信息:评估两个分布之间的相似性 I(x,y)=H(x)-H(x|y)
10.基尼系数:任选两个样本,属于不同类别的概率
11.AUC:模型的排序能力 正样本排在负样本之前的概率
12.order by是全局排序 sort by是局部排序
13.flatmap map区别 :map操作为每个输入值生成一个输出值,而flatmap操作为每个输入值生成一个任意数字(零个或多个)值