- 小红书2020春招
选择题
1.
2.
解析:以测试样本100为例;因为p=0.6,所以正样本数量是60(100% / 全部选用),负样本是40(40/0.1=400),不对负样本进行抽样,意味着负样本也是100%采用,所以p=60/(400+60)=0.13 或者0.6/(0.6+0.4/0.1)=0.13
3.
解析:本题样本对(一个正样本,一个负样本组成一个样本对)共有3*2=6个,分别是(B,A)(B,D)(C,A)(C,D)(E,A)(E,D)。模型A对应概率为(0.4,0.2),(0.4,0.3),(0.7,0.2),(0.7,0.3),(0.5,0.2),(0.5,0.3),可得其对应AUC为:(1+1+1+1+1+1)/6 = 1。同理,模型B也等于1。
4.
解析; 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F值(F-Measure)、AUC、ROC=的理解
准确率(正确率)=所有预测正确的样本/总的样本 (TP+TN)/总
精确率= 将正类预测为正类 / 所有预测为正类 TP/(TP+FP)
召回率 = 将正类预测为正类 / 所有正真的正类 TP/(TP+FN)
F值 = 精确率 * 召回率 * 2 / ( 精确率 + 召回率) (F 值即为精确率和召回率的调和平均值)
ROC曲线:ROC曲线:接收者操作特征(receiver operating characteristic),roc曲线上每个点反映着对同一信号刺激的感受性。
纵轴:真正类率(true postive rate TPR,TPR: TP/(TP+FN)),也叫真阳性率
横轴:假正类率(false postive rate FPR,FPR: FP/(FP+TN)),也叫伪阳性率
AUC(Area under Curve):Roc曲线下的面积,介于0.1和1之间。AUC作为数值可以直观的评价分类器的好坏,值越大越好
5.
解析:qps是每秒查询率 相当于要处理的任务 任务从100变成150 效率从40变成60 时间从53变成多少? 53*(150/100)=80最接近70,因为CPU利用率的提高并不会增加并发数,而qps=并发数/响应时间
6.
解析:Dropout率(keep_prob)为保留一个神经元为激活状态的概率.Dropout率越高,意味着更多神经元是激活的,正规化程度越低。Dropout是bagging的近似集成,dropout可以随机的让一部分神经元失活,这样仿佛是bagging的采样过程,因此可以看做是bagging的廉价的实现. 使用Dropout的目的是为了防止过拟合,增加keep_prob,训练集的错误会降低。
7.
8.
解析: 增加网络层数,可能会增加测试集分类错误率
9.