文末彩蛋:七月在线干货组最新升级的《名企AI面试100题》免费送!
问题1:lr为什么要用极大似然
因为我们想要让每一个样本的预测都要得到最大的概率,即将所有的样本预测后的概率进行相乘都最大,也就是极大似然函数。
对极大似然函数取对数以后相当于对数损失函数,由梯度更新的公式可以看出,对数损失函数的训练求解参数的速度是比较快的,而且更新速度只和x,y有关,比较的稳定。
为什么不用平方损失函数?如果使用平方损失函数,梯度更新的速度会和sigmod函数的梯度相关,sigmod函数在定义域内的梯度都不大于0.25,导致训练速度会非常慢。而且平方损失会导致损失函数是theta的非凸函数,不利于求解,因为非凸函数存在很多局部最优解。
问题2:讲一下lgb的直方图是怎么用的
基本思想:先把连续的浮点特征值离散化k个整数,同时构造一个宽度为k的直方图。在遍历数据时:
根据离散化后的值作为索引在直方图中累积统计量。当遍历一次数据后,直方图累积了需要的统计量。然后根据直方图的离散值,遍历寻找最优的分割点。
优点:节省空间。假设有个样本,每个样本有个特征,每个特征的值都是32位浮点数。对于每一列特征,都需要一个额外的排好序的索引(32位的存储空间)。则pre-sorted算法需要消耗字节内存。如果基于histogram算法,仅需要存储feature bin value(离散化后的数值),不需要原始的feature value,也不用排序。而bin value用unit8_t即可,因此histogram算法消耗字节内存,是预排序算法的。
缺点:不