机器学习
文章平均质量分 87
十三吖
这个作者很懒,什么都没留下…
展开
-
余弦距离是否是严格意义上的距离?
首先,不是的!!!分析如下:距离三要素非负性正定性对称性三角不等式余弦相似度计算公式为cos=a⋅b∣∣a∣∣∗∣∣b∣∣=x1x2+y1y2x12+y12⋅x22+y22cos = \frac{a·b}{||a|| * ||b||} = \frac{x_1x_2+y_1y_2}{\sqrt{x_1^2+y_1^2} · \sqrt{x_2^2+y_2^2}}cos=∣∣a∣∣∗∣∣b∣∣a⋅b=x12+y12⋅x22+y22x1x2+y1y2余弦距离计算公式为原创 2021-11-01 22:55:15 · 263 阅读 · 0 评论 -
常用的损失函数
1 回归损失1.1 均方误差MSE=∑1n(yi−yi^)2nMSE = \frac{\sum_{1}^{n}{(y_{i}-\hat{y_{i}})}^{2}}{n}MSE=n∑1n(yi−yi^)2均方误差(MSE)度量的是预测值和实际观测值间差的平方的均值。它只考虑误差的平均大小,不考虑其方向。但由于经过平方,与真实值偏离较多的预测值会比偏离较少的预测值受到更为严重的惩罚。再加上 MSE 的数学特性很好,这使得计算梯度变得更容易。1.2 平均绝对误差MAE=∑1n∣yi−yi^∣n原创 2021-11-01 22:53:08 · 731 阅读 · 0 评论 -
L1与L2正则化
0 公式定义LLL为lossL1正则minL+C⋅∥w∥1min L + C · \left \|w \right \|_1minL+C⋅∥w∥1L2正则minL+C⋅∥w∥22min L + C · \left \|w \right \|_2^2minL+C⋅∥w∥221 结构风险最小化角度在经验风险最小化的基础上(也就是训练误差最小化),尽可能采用简单的模型,以此提高泛化预测精度。假设X为一个二维样本,那么要求解参数www也是二维,原函数曲线等高线:加入L1和L2后的图像原创 2021-10-31 21:40:37 · 876 阅读 · 0 评论 -
样本不均衡及其解决办法
1 什么是类别不均衡类别不平衡(class-imbalance),也叫数据倾斜,数据不平衡,是指分类任务中不同类别的训练样例数目差别很大的情况。在现实的分类学习任务中,我们经常会遇到类别不平衡,例如广告点击率预测、故障分析、异常检测等;或者在通过拆分法解决多分类问题时,即使原始问题中不同类别的训练样例数目相当,在使用OvR(One vs. Rest)、MvM(Many vs. Many)策略后产生的二分类任务仍然可能出现类别不平衡现象。而标准机器学习算法通常假设不同类别的样本数量大致相似,所以类别不平衡原创 2021-10-31 21:38:57 · 4904 阅读 · 0 评论 -
机器学习中的偏差与方差
1 什么是偏差方差在机器学习中,我们用训练数据集去训练一个模型,通常的做法是定义一个误差函数,通过将这个误差的最小化过程,来提高模型的性能。然而我们学习一个模型的目的是为了解决训练数据集这个领域中的一般化问题,单纯地将训练数据集的损失最小化,并不能保证在解决更一般的问题时模型仍然是最优,甚至不能保证模型是可用的。这个训练数据集的损失与一般化的数据集的损失之间的差异就叫做 泛化误差(generalization error) 。泛化误差可分解为偏差、方差与噪声之和。偏差度量了学习算法的期望预测与真实结果原创 2021-10-31 21:38:12 · 2268 阅读 · 0 评论 -
神经网络权重为什么不能初始化为0
1 逻辑回归为什么可以初始化为0 ?1.1 参数说明输入: x1,x2x_1, x_2x1,x2输出: aaa权重: w1,w2w_1, w_2w1,w2偏置: bbb激活函数: sigmoidsigmoidsigmoid损失函数: crossentropycross entropycrossentropy逻辑回归用公式表达为: a=sigmoid(w1x1+w2x2+b)a = sigmoid(w_1x_1 + w_2x_2 + b)a=sigmoid(w1x1+w2x2+原创 2021-10-31 21:36:55 · 982 阅读 · 0 评论 -
PR曲线与ROC曲线绘制
0 用到的知识介绍ROC和PR前先介绍混淆矩阵便于理解。-预测值 正预测值 负真实值 正TPFN真实值 负FPTNTP(True Positive): 被判定为正样本,实际也为正样本FN(False Negative):伪阴性 ,被判定为负样本,实际为正样本FP(False Positive):伪阳性,被判断为正样本,实际为负样本TN(True Negative):被判断为负样本,实际为负样本假阳率:在所有的负样本中,分类器预测错误的比例FPR=FPF原创 2021-10-31 21:36:15 · 5600 阅读 · 1 评论 -
问题出现在了哪里?模型线下提升但线上没有提升
原因分析:1 offline 与 online 的特征没有对齐工作中添加新的特征经常会出现offline配置文件没有同步到online,特征解析错误或者抽取方式存在区别,这些均会导致offline模型训练用到的数据和online预测用到的数据不一致。因此需要上线特征之前,需要先对比相同样本 online和offline特征是否对齐。2 online特征监控特征来源有很多方法,直接线上抽取、从DB获取、从redis获取等,一旦某个环节出现问题,就会导致特征缺失甚至错误,因此需要针对不同来源的特征进行监原创 2021-10-31 21:35:00 · 282 阅读 · 0 评论 -
attention与self attention的区别
1 什么是注意力机制?当我们观察某件事物/景色的时候,往往会先简单看下周围环境,然后将重点放在某一重要部分。深度学习中的注意力机制从本质上讲和人类的选择性视觉注意力机制类似,也是从众多信息中选择出对当前任务目标更关键的信息。下图形象化展示了人类在看到一副图像时是如何高效分配有限的注意力资源的,其中红色区域表明视觉系统更关注的目标,很明显对于下图所示的场景,人们会把注意力更多投入到人的脸部,文本的标题以及文章首句等位置。2 从encoder和decode说起encoder-decode框架在自然语言处原创 2021-10-31 21:32:38 · 9494 阅读 · 1 评论 -
怪了,为什么一些场景中使用余弦相似度而不是欧式距离
空间中的两个点a(x1,y2),b(x2,y2)a(x_1, y_2), b(x_2, y_2)a(x1,y2),b(x2,y2)余弦相似度计算公式为cos=a⋅b∣∣a∣∣∗∣∣b∣∣=x1x2+y1y2x12+y12⋅x22+y22cos = \frac{a·b}{||a|| * ||b||} = \frac{x_1x_2+y_1y_2}{\sqrt{x_1^2+y_1^2} · \sqrt{x_2^2+y_2^2}}cos=∣∣a∣∣∗∣∣b∣∣a⋅b=x12+y12⋅x22+y原创 2021-10-31 21:28:50 · 328 阅读 · 0 评论 -
深度学习 ——> Batch Normalization ——> 批标准化
转自:https://www.cnblogs.com/guoyaohua/p/8724433.html这几天面试经常被问到BN层的原理,虽然回答上来了,但还是感觉答得不是很好,今天仔细研究了一下Batch Normalization的原理,以下为参考网上几篇文章总结得出。 Batch Normalization作为最近一年来DL的重要成果,已经广泛被证明其有效性和重要性。虽然有些细节处理...转载 2019-06-05 09:58:01 · 235 阅读 · 0 评论 -
数据挖掘领域十大经典算法初探
转自:https://blog.csdn.net/v_july_v/article/details/6142146 以下就是从参加评选的18种候选算法中,最终决选出来的十大经典算法:一、C4.5C4.5,是机器学习算法中的一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵...转载 2018-04-26 19:36:07 · 282 阅读 · 1 评论 -
《机器学习及实战》读书笔记之基础篇(监督学习回归)
监督学习(xi,yi) 2.1.2回归预测回归问题与分类问题的区别在于:其待预测目标是连续函数2.1.2.1线性回归器m个用于训练的特征向量x=(x1,x2……xm) 其对应的回归目标y=(y1,y2……ym) 希望回归模型可以用最小二乘法来预测损失L(w,b),如此一来,线性回归器的优化目标为: argminL(w,b)=argmin((f(w,x,b)-yk)^原创 2018-02-27 15:00:04 · 267 阅读 · 0 评论 -
《机器学习及实战》读书笔记之基础篇(监督学习分类)
监督学习(xi,yi) 准备训练数据—>抽取特征—>训练模型—>测试—>预测对待测样本2.1.1分类学习应用:医生对肿瘤性质的判断、邮政系统对手写体邮编的识别、对新闻的分类、生物学家对物种类型的鉴定。。。。。。2.1.1.1线性分类器线性分类器是一种假设特征与分类结果存在线性关系的模型,这个模型通过累加计算每个维度的特征与各自权重的乘积来帮助分类决策。 n维特征向量原创 2018-01-29 16:39:43 · 377 阅读 · 0 评论 -
《机器学习及实战》读书笔记之简介篇
python数据类型1、数字number:整型integer、长整型long、浮点数float、复杂型数complex 2、布尔型boolean:二进制表示真和假true and false 3、字符串string:由一系列字符character组成,单引号双引号辅助表示“123”,‘123’ 4、元组tuple:元组内部数据类型不必统一,t=(123,’abc’,0.55),其中t[0原创 2018-01-27 17:28:58 · 297 阅读 · 0 评论 -
各类机器学习算法简要知识总结
首先感谢(https://bbs.aliyun.com/read.php?spm=5176.100258.100258.9.22c7193fJJ5dkw&tid=294564&displayMode=1&page=1&toread=1#tpc)的作者。朴素贝叶斯P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B) 所以有:P(A|B)=P(B|A)*P(A)/P(B) 对于给原创 2018-01-17 20:53:26 · 422 阅读 · 0 评论