2021年02月_cqu_shuai

原创 pytorch小技巧——修改tensor数值且不影响反向传播

参考链接https://tangshusen.me/Dive-into-DL-PyTorch/#/chapter02_prerequisite/2.3_autogradtensor.data如果我们想要修改tensor的数值，但不希望被autograd记录（即不会影响反向传播），可以对tensor.data进行操作。例如：x = torch.ones(1,requires_grad=True)print(x.data) # 还是一个tensorprint(x.data.requires_g

2021-02-27 23:44:25 4258 1

原创模型评估之过拟合与欠拟合

参考资料《百面机器学习》过拟合 v.s. 欠拟合过拟合是指模型对于训练数据拟合过当，就是在训练集上的表现很好，但在测试集和新数据上的表现较差。欠拟合指的是模型在训练和预测时表现都不好的情况。如何降低过拟合风险获得更多的训练数据。可以通过一定的规则来扩充训练数据，也可以使用GAN来合成大量的新训练数据。降低模型的复杂度。如减少网络层数、神经元个数等。正则化方法。如添加L2正则项，dropout层等。集成学习方法。如Bagging方法等。如何降低欠拟合风险添加新

2021-02-08 15:39:00 426

原创模型评估之超参数调优

参考资料《百面机器学习》网格搜索通过查找搜索范围内的所有的点来确定最优值。这种搜索方案十分消耗计算资源和时间。在实际应用中，一般先使用较广的搜索范围和较大的步长，来寻找全局最优值可能的位置；然后会逐渐缩小搜索范围和步长，来寻找更精确的最优值。但由于目标函数一般都是非凸的，所以很可能会错过全局最优值。随机搜索与网格搜索类似，只是不测试上下界间的所有值，而是在范围内随机选取样本点。一般会比网格搜索快一些，但结果也是无法保证的。贝叶斯优化算法网格搜索和随机搜索在测试一个新点时，会忽略前一个点的

2021-02-08 15:28:59 140

原创模型评估之A/B测试

参考资料《百面机器学习》为什么进行A/B测试离线评估无法完全消除模型过拟合的影响，因此，得出的离线评估结果无法完全代替线上评估结果；离线评估无法完全还原线上的工程环境。离线评估往往不会考虑线上环境的延迟、数据丢失、标签数据丢失等情况；线上系统的某些商业指标在离线评估中无法计算。例如，上线新的推荐算法，离线评估往往关注的是ROC曲线，P-R曲线等的改进，而线上评估可以全面了解该推荐算法带来的用户点击率、留存时长、PV访问量等的变化。如何进行A/B测试主要手段是进行用户分桶，即

2021-02-08 15:10:41 766

原创模型评估之余弦距离

参考资料《百面机器学习》https://www.it1352.com/1689274.htmlhttps://blog.csdn.net/m0_37890477/article/details/80413344余弦距离定义对于两个向量AAA和BBB，余弦距离=1−cos(A,B)余弦距离=1-cos(A,B)余弦距离=1−cos(A,B)，其中，cos(A,B)cos(A,B)cos(A,B)为余弦相似度，计算公式为：cos(A,B)=A⋅B∥A∥2∥B∥2cos\left ( A,B\r

2021-02-08 15:00:03 1146

原创模型评估之评估指标

参考资料《百面机器学习》https://blog.csdn.net/hfutdog/article/details/88085878准确率（Accuracy）定义指分类正确的样本占总样本个数的比例，即Accuracy=ncorrectntotal=TP+TNTP+TN+FP+FNAccuracy=\frac{n_{correct}}{n_{total}}=\frac{TP+TN}{TP+TN+FP+FN}Accuracy=ntotalncorrect=TP+TN+FP+FNTP+TN

2021-02-08 14:20:04 407

原创特征工程之特征归一化

参考资料《百面机器学习》https://blog.csdn.net/wei18791957243/article/details/91360356为什么需要特征归一化为了消除数据特征之间的量纲影响，使得不同指标之间具有可比性。在实际应用中，通过梯度下降法求解的模型通常是需要归一化的。但对于决策树模型并不适用。线性函数归一化（Min-Max Scaling）对原始数据进行线性变换，使结果映射到[0,1]，实现对原始数据的等比缩放。公式如下：Xnorm=X−XminXmax−XminX_{no

2021-02-07 16:25:20 322

beilizhang的博客