机器学习
文章平均质量分 54
cqu_shuai
实事求是,不自以为是
展开
-
模型评估之过拟合与欠拟合
参考资料《百面机器学习》过拟合 v.s. 欠拟合过拟合是指模型对于训练数据拟合过当,就是在训练集上的表现很好,但在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好的情况。如何降低过拟合风险获得更多的训练数据。可以通过一定的规则来扩充训练数据,也可以使用GAN来合成大量的新训练数据。降低模型的复杂度。如减少网络层数、神经元个数等。正则化方法。如添加L2正则项,dropout层等。集成学习方法。如Bagging方法等。如何降低欠拟合风险添加新原创 2021-02-08 15:39:00 · 481 阅读 · 0 评论 -
模型评估之超参数调优
参考资料《百面机器学习》网格搜索通过查找搜索范围内的所有的点来确定最优值。这种搜索方案十分消耗计算资源和时间。在实际应用中,一般先使用较广的搜索范围和较大的步长,来寻找全局最优值可能的位置;然后会逐渐缩小搜索范围和步长,来寻找更精确的最优值。但由于目标函数一般都是非凸的,所以很可能会错过全局最优值。随机搜索与网格搜索类似,只是不测试上下界间的所有值,而是在范围内随机选取样本点。一般会比网格搜索快一些,但结果也是无法保证的。贝叶斯优化算法网格搜索和随机搜索在测试一个新点时,会忽略前一个点的原创 2021-02-08 15:28:59 · 198 阅读 · 0 评论 -
模型评估之A/B测试
参考资料《百面机器学习》为什么进行A/B测试离线评估无法完全消除模型过拟合的影响,因此,得出的离线评估结果无法完全代替线上评估结果;离线评估无法完全还原线上的工程环境。离线评估往往不会考虑线上环境的延迟、数据丢失、标签数据丢失等情况;线上系统的某些商业指标在离线评估中无法计算。例如,上线新的推荐算法,离线评估往往关注的是ROC曲线,P-R曲线等的改进,而线上评估可以全面了解该推荐算法带来的用户点击率、留存时长、PV访问量等的变化。如何进行A/B测试主要手段是进行用户分桶,即原创 2021-02-08 15:10:41 · 841 阅读 · 0 评论 -
模型评估之余弦距离
参考资料《百面机器学习》https://www.it1352.com/1689274.htmlhttps://blog.csdn.net/m0_37890477/article/details/80413344余弦距离定义对于两个向量AAA和BBB,余弦距离=1−cos(A,B)余弦距离=1-cos(A,B)余弦距离=1−cos(A,B),其中,cos(A,B)cos(A,B)cos(A,B)为余弦相似度,计算公式为:cos(A,B)=A⋅B∥A∥2∥B∥2cos\left ( A,B\r原创 2021-02-08 15:00:03 · 1308 阅读 · 0 评论 -
模型评估之评估指标
参考资料《百面机器学习》https://blog.csdn.net/hfutdog/article/details/88085878准确率(Accuracy)定义指分类正确的样本占总样本个数的比例,即Accuracy=ncorrectntotal=TP+TNTP+TN+FP+FNAccuracy=\frac{n_{correct}}{n_{total}}=\frac{TP+TN}{TP+TN+FP+FN}Accuracy=ntotalncorrect=TP+TN+FP+FNTP+TN原创 2021-02-08 14:20:04 · 473 阅读 · 0 评论 -
特征工程之特征归一化
参考资料《百面机器学习》https://blog.csdn.net/wei18791957243/article/details/91360356为什么需要特征归一化为了消除数据特征之间的量纲影响,使得不同指标之间具有可比性。在实际应用中,通过梯度下降法求解的模型通常是需要归一化的。但对于决策树模型并不适用。线性函数归一化(Min-Max Scaling)对原始数据进行线性变换,使结果映射到[0,1],实现对原始数据的等比缩放。公式如下:Xnorm=X−XminXmax−XminX_{no原创 2021-02-07 16:25:20 · 341 阅读 · 0 评论