机器学习基础
机器学习基础,通用名词为主
jzwei023
这个作者很懒,什么都没留下…
展开
-
相似度计算
衡量变量之间的相似度原创 2023-12-26 21:42:13 · 463 阅读 · 1 评论 -
Pooling
RoI pooling感兴趣区域池化(Region of interest pooling)是使用卷积神经网络在目标检测任务中广泛使用的操作。其目的是对非均匀尺寸的输入执行最大池化以获得固定尺寸的特征图。对于来自输入列表的每个感兴趣区域,它采用与其对应的输入特征图的一部分并将其缩放到某个预定义的大小(例如,7×7): 将区域提案划分为相等大小的部分(其数量与输出的维度相同) 找到每个部分的最大值 将这些最大值复制到输出(max pooling) ...原创 2022-02-17 14:37:06 · 466 阅读 · 0 评论 -
xgboost为啥使用二阶泰勒展开?
1. 直接理解一阶导指引梯度方向,二阶导指引梯度方向如何变化,所以二阶信息本身就能让梯度收敛更快更准确。这里可以对比牛顿法和SGD。牛顿法是二阶收敛,梯度下降是一阶收敛,当初始点选取合理的情况下,牛顿法比梯度下降法收敛的速度快。通俗的讲,比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。(牛顿法目光原创 2021-09-13 14:17:58 · 2998 阅读 · 0 评论 -
向量检索综述
各向量检索方法的性能比较:https://blog.csdn.net/luoyexuge/article/details/84235421Faiss (Facebook AI Similarity Search)针对高维空间中的海量数据,提供了高效且可靠的检索方法。AnnoyAnnoy是 Spotify开源的高维空间求近似最近邻的库,在 Spotify 使用它进行音乐推荐。...原创 2021-04-07 22:39:45 · 106 阅读 · 0 评论 -
分类树vs回归树
参考分类树就是面向分类的,每个决策树最末端的叶子结点出来的是一个分类标签;回归树就是面向回归的,回归就是拟合函数一样,输出连续值1.分类树的最后一层叶子结点后才是分类标签,其他时候的节点都不是,可以认为是某个特征属性。2.回归树的所有节点可以理解为都是一个东西,就是待回归属性,比如温度,最后的回归值是把树走完走到最后一个节点的值。...转载 2021-05-25 17:19:35 · 2893 阅读 · 0 评论 -
candidate sampling
Sampled SoftmaxHierarchical softmaxNegative SamplingNoise Contrastive Estimation(NCE)Info-NCE原创 2021-04-11 22:30:42 · 95 阅读 · 0 评论 -
负对数似然 交叉熵 mse mae的区别
交叉熵的介绍见https://blog.csdn.net/jzwei023/article/details/115496906?spm=1001.2014.3001.5501交叉熵 vs 二阶Loss函数逻辑回归一些简单的网络中,我们会使用MSE(均方误差mean-square error)这样的二阶Loss函数。然而二阶loss函数,会存在一个问题。ANN被设计的一个最大优势在于可以根据误差进行学习来调整参数。误差越大,则希望调整的幅度越大,从而收敛速度越快。而二阶loss函数则有可能误差越大原创 2021-04-11 22:22:33 · 1089 阅读 · 0 评论 -
卷积-反卷积、空洞卷积、因果卷积、图卷积
反卷积、空洞卷积原创 2021-03-19 23:57:17 · 1804 阅读 · 1 评论 -
L0、L1、L2范数
范数L0范数:是指向量中非0的元素的个数L1范数:是指向量中各个元素绝对值之和L2范数:是指向量各元素的平方和然后求平方根作用1. L1范数和L0范数可以实现稀疏(让向量中非0的元素的个数尽量少)L1因具有比L0更好的优化求解特性(L0范数是NP难问题很难优化求解,L1范数是L0范数的最优凸近似)而被广泛应用。 应用在特征选择或者可解释上2. L2可以防止过拟合最小化L2范数的规则项,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0...原创 2021-03-09 00:09:01 · 1112 阅读 · 1 评论 -
准确率、精确率、召回率、F-Score
TP-将正类预测为正类FN-将正类预测为负类FP-将负类预测位正类TN-将负类预测位负类准确率(正确率)=所有预测正确的样本/总的样本 (TP+TN)/总精确率= 将正类预测为正类 / 所有预测为正类 TP/(TP+FP)召回率 = 将正类预测为正类 / 所有正真的正类 TP/(TP+FN)F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) (F 值即为正确率和召回率的调和平均值)...原创 2021-03-08 22:52:14 · 738 阅读 · 0 评论 -
训练集、验证集、测试集
通常情况下,我们将样本分成训练集(train)、验证集(validation)和测试集(test),比如按8:1:1。有了模型后,训练集就是用来训练参数的,说准确点,一般是用来梯度下降的。而验证集基本是在每个epoch完成后,用来测试一下当前模型的准确率。因为验证集跟训练集没有交集,因此这个准确率是可靠的。那么为啥还需要一个测试集呢?从狭义来讲,验证集没有参与梯度下降的过程,也就是说是没有经过训练的;但从广义上来看,验证集却参与了一个“人工调参”的过程,我们根据验证集的结果调节了迭代数、调节了学习率原创 2021-03-07 23:07:14 · 641 阅读 · 0 评论 -
旋转不变性、尺度不变性
旋转不变性:只要对特征定义了方向,然后在同一个方向上进行特征描述就可以实现旋转不变性。尺度不变性:为了实现尺度不变性,需要给特征加上尺度因子。在进行特征描述的时候,将尺度统一就可以实现尺度不变性了。所谓的旋转不变性和尺度不变性的原理,就是我们在描述一个特征之前,将两张图像都变换到同一个方向和同一个尺度上,然后再在这个统一标准上来描述这个特征。同样的,如果在描述一个特征之前,将图像变换到同一个仿射尺度或者投影尺度上,那么就可以实现仿射不变性和投影不变性。卷积神经网络保证“位移、尺度、形..原创 2021-03-07 23:01:43 · 4679 阅读 · 0 评论 -
生成式模型 vs 判别式模型
对于样本x,预测其类别y,即计算 p(y|x) ,简单来说生成式模型:是对联合概率 p(x,y) 进行建模,然后利用贝叶斯公式 p(y|x) = p(x,y) / p(x) 进行计算朴素贝叶斯混合高斯模型隐马尔科夫模型(HMM)贝叶斯网络Sigmoid Belief Networks马尔科夫随机场(Markov Random Fields)深度信念网络(DBN)判别式模型:直接对条件概率 p(y|x) 建模K近邻(KNN)线性回归(Linear Regression)逻辑斯蒂原创 2021-03-07 19:35:04 · 144 阅读 · 0 评论 -
过拟合、欠拟合、高偏差、高方差
过拟合在训练样本上误差较小,在验证集上误差较大欠拟合在训练样本和验证集上误差都教大偏差、方差高偏差,高方差高偏差=欠拟合:就是对所有的数据,不管是训练集还是验证集,预测结果与真实结果都有较大的偏差高方差=过拟合:就是训练集的时候偏差较小,但验证集上偏差较大,所以波动较大,即方差较大...原创 2021-03-07 19:04:19 · 1076 阅读 · 0 评论