1.1 特征工程
特征工程:是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用
1.2 评价指标
精确率(Precision):预测是正样本中正确的比例
召回率(Recall):原始正样本中预测为正确的样本比例
精确率与召回率相矛盾——P-R曲线
平方根误差(RMSE):局限性是对离群值情况处理有限
平均绝对百分比误差(MAPE):把每个点的误差归一化
ROC曲线:横坐标为假阳性率,即把正样本预测对的比例(FPR);纵坐标为真阳性率,即把负样本预测错的比例(TPR)。ROC曲线由不断调节划分的截断点(阈值,0-1)得到
AUC:指的是ROC曲线下的面积大小
ROC曲线比P-R曲线更加稳定
1.3 余弦距离
余弦相似度:范围[-1,1],表示相似度。
余弦距离:1-余弦相似度
1.4 A/B测试
A/B测试:对照实验,即比较两个或多个产品版本。关键是确保除了测试的变量之外,所有其他条件都保持不变。随机分组,样本有独立性。实验组(新模型),对照组(旧模型)。
类似于小学科学实验hhh
1.5 模型评估
Holdout检验:直接随机划分。测试集评价结果与原始划分有很大关系。
交叉验证:k折交叉验证、留一验证
自助法:n次有放回的抽样,没抽到的作验证集
1.6 超参数调优
过拟合解决方法:
1、扩充数据集;2、降低模型复杂度;3、正则化;4、集成学习
欠拟合解决方法:
1、利用模型添加新特征;2、增加模型复杂度;3、减小正则化系数