2015微软在Kaggle上的恶yi代码分类比赛:
冠军队伍的三个黄金特征:
1、恶yi代码图像
把一个二进制文件以灰度图的形式展现出来,利用图像中的纹理特征对恶yi代码进行聚类。
2、OPCode n-gram
n-gram是计算某个语句出现的概率,用马尔科夫模型,结合条件概率计算得到,
这里的语句是操作语句,如Push Mov等操作语句。
———————————————————————————————————————
准确率与召回率形象解释:
一个池塘有10条鱼和20只小龙虾,渔夫撒网打鱼,捞上来8只鱼和12只小龙虾,那么准确率为8/(8+12)=40%,
召回率为8/10=80%。
这里的8就是指预测为真,实际为真;12是指预测为真,实际为假;
总的预测为真为8+12=20,总的预测为假为(10+20)-(8+12)=10,
这10个中,实际为真(鱼)为2,实际为假(小龙虾)为8
因此,预测为假,实际为真2,预测为假,实际为假为8。
对预测问题:
预测为真,实际为真为TP;预测为真,实际为假为FP;
预测为假,实际为真为FN;预测为假,实际为假为TN。
那么准确率为TP/(TP+FP);召回率为TP/(TP+FN)