心心喵
这个作者很懒,什么都没留下…
展开
-
[机器学习] 专栏目录索引
目录第一章 绪论第一章 绪论 1.P问题、NP问题、NP完全问题和NP难问题第二章 模型评估与选择第二章 模型评估与选择 1.ROC、AUC、Precision、Recall、F1_score第二章 模型评估与选择 2.ROC:roc_curve原理及源代码详解第三章 线性模型第三章 线性模型 1.线性回归 & 逻辑回归 & 线性判别分析LDA第三章 线性模型 2.特征抽取——LDA线性判别分析(Linear Discriminate Analysis)第原创 2021-07-26 17:34:36 · 297 阅读 · 0 评论 -
[机器学习] 逻辑回归—lr参数可以初始化为0, DNN参数不能初始化为0
lr 是有激活的,DNN隐层是没有激活的,所以会导致w的梯度=0。lr 可以初始化为0, DNN不能初始化为0。原创 2022-10-10 16:30:55 · 426 阅读 · 0 评论 -
[机器学习] 数据缺失的处理方法及其优缺点分析
参考:数据缺失的处理方法及其优缺点分析 - 知乎一、缺失值的原因缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。缺失值的产生的原因主要为:无意的:信息被遗漏,比如由于工作人员的疏忽忘记而缺失;或由于数据采集器故障等原因造成的缺失,比如系统实时性要求较高的时候,机器来不及判断和决策而造成缺失; 有意的:有些数据集在特征描述中会规定将缺失值也作为一种特征值,这时候缺失值就可以看作是一种特殊的特征值; 不存在:有些特征属性根本原创 2022-04-02 12:55:16 · 3041 阅读 · 0 评论 -
[机器学习] 优化器Adam
参考:pytorch优化器详解:Adam_拿铁大侠的博客-CSDN博客_pytorch中adam优化器参数从Momentum、RMSprop到Adam - 简书 Adam计算过程为方便理解,以下伪代码和论文略有差异,其中蓝色部分是比RMSProp多出来的。torch.optim.Adam(params, #模型里需要被更新的可学习参数 lr=0.001, #学习率 betas=(0.9, 0.99...原创 2022-03-11 13:38:36 · 1543 阅读 · 0 评论 -
[机器学习] 支持向量机SVM
支持向量机SVM,是二分类模型,学习策略是 学到特征空间中间隔最大的线性分类器。SVM引入 核技巧,使它成为实质上的非线性分类器。当训练数据线性可分时,通过硬间隔最大化,学习到线性分类器(硬间隔SVM)。...原创 2021-12-07 13:30:01 · 74 阅读 · 0 评论 -
[机器学习] 最大熵模型
一、最大熵原理学习概率模型时,在所有可能的概率模型中,熵最大的模型是最好的模型。最大熵原理认为,首先必须满足已有事实(约束条件),在没有更多信息的情况下,那些不确定的部分都是“等可能的”。 其中,熵可以量化“等可能”(等概率,熵最大)。二、最大熵模型最大熵原理是统计学习的一般原理,应用到分类得到最大熵模型。2.1 条件熵=联合熵-熵:H(Y|X)=H(X,Y)-H(X)H(Y|X) = sum_xy -P(x)* P(y|x)* log(P(y|x)) =...原创 2021-12-03 20:51:13 · 146 阅读 · 0 评论 -
[机器学习] CCA&GLPCCA&MGLPCCA
参考:典型关联分析(CCA)原理总结 - 刘建平Pinard - 博客园CCACCA算法的特征分解求解CCA是无约束优化问题,可以考虑用拉格朗日乘子法求解。这里投影矩阵Wx,Wy简化为投影向量a,b。拉格朗日乘子法求导,优化目标函数其实就是优化拉格朗日系数。由于lambda=theta, 代入求导等式,可得关于 lambda方的等式。我们可以看到,lambda方其实就是左边矩阵的特征值。对左边矩阵进行特征分解,找出最大值,取平方根,就是最大的l...原创 2021-11-12 17:47:36 · 1792 阅读 · 0 评论 -
[机器学习] 流形降维:LLE(局部线性嵌入)
参考:LLE原理及推导过程_scott198510的博客-CSDN博客引 所谓LLE(局部线性嵌入)即”Locally Linear Embedding”的降维算法,在处理所谓流形降维的时候,效果比PCA要好很多。原理LLE: 流形 不闭合,不能是球面 ⚽️。局部线性假设所谓局部线性,即认为在整个数据集的某个小范围内,数据是线性的,就比如虽然地球是圆的,但我们还是可以认为我们的篮球场是个平面;而这个“小范围”,最直接的办法就是 k-近邻原则。这个“...原创 2021-11-07 16:36:21 · 379 阅读 · 0 评论 -
[机器学习] MLE(极大似然估计)、MAP(最大后验估计)、Bayesian贝叶斯估计
参考:机器学习中的MLE、MAP、贝叶斯估计 - 知乎目录总结MLE(极大似然估计)MAP(最大后验估计)Bayesian随着我们观测到越来越多的数据,MAP 趋向于 MLE总结MLE(极大似然估计)MAP(最大后验估计)Bayesian(所有权重的加权平均,作为答案)我们把上面的这种思路应用到张三的问题上,其实相当于我们让所有计算机系的学生参与回答这个问题,之后把他们的答案进行汇总并得出最终的答案。如果我们知道每一位学生的...原创 2021-10-17 17:46:34 · 449 阅读 · 0 评论 -
[机器学习] 第八章 集成学习 4.XGBoost 论文解读
论文链接:https://www.kdd.org/kdd2016/papers/files/rfp0697-chenAemb.pdfABSTRACT在本文中,我们描述了一个分布式端到端 tree boosting系统,称为XGBoost,它被数据科学家广泛使用,以在许多机器学习挑战上取得最先进的结果。针对稀疏数据提出了一种新的稀疏感知算法,针对近似树学习提出了加权分位数草图。更重要的是,我们提供关于缓存访问模式、数据压缩和分片(sharding)的见解,以构建一个分布式的 tree boosti原创 2021-10-01 22:45:06 · 184 阅读 · 0 评论 -
[机器学习] 高斯过程 Gaussian-Process、CLT、高斯分布
高斯过程回归_高斯过程_weixin_39517202的博客-CSDN博客原创 2021-09-11 17:05:11 · 171 阅读 · 0 评论 -
[机器学习] 第一章 绪论 2.L0、L1、L2 范数正则化
参考:https://blog.csdn.net/wangheng673/article/details/84451981L0范数正则化(惩罚):非0的参数个数控制在c以内机器学习中最常用的正则化措施是限制模型的能力,其中最著名的方法就是L1和L2范数惩罚。 假如我们需要拟合一批二次函数分布的数据,但我们并不知道数据的分布规律,我们可能会先使用一次函数去拟合,再使用二次函数、三次、四次、等等次数的函数去拟合,从中选择拟合效果最好的一个函数来作为我们最终的模型。 ...原创 2021-09-09 23:23:08 · 97 阅读 · 0 评论 -
[机器学习] 第十三章 半监督学习 1. 西瓜书整理
一、分类二、生成式方法用 EM 算法,进行极大似然估计,对未标记的数据进行标签预测。三、TSVM原创 2021-07-26 23:13:27 · 400 阅读 · 0 评论 -
[机器学习] 第十三章 半监督学习 2. Proxy-label Methods
目录一、基本假设(Base Assumptions)1.1 平滑假设(The Smoothness Assumption)1.2 集群假设(The Cluster Assumption)1.3 流形假设(The Manifold Assumption)二、一致正则化2.1 Pi-Model (ICLR2017)2.2 Temporal Ensembling (ICLR2017)2.3 Mean teachers (NIPS 2017)2.4 Unsupervised Da原创 2021-07-26 21:45:07 · 918 阅读 · 0 评论 -
[机器学习] 第一章 绪论 1.P问题、NP问题、NP完全问题和NP难问题
参考:https://zhuanlan.zhihu.com/p/73953567参考:https://blog.csdn.net/qq_21768483/article/details/80430590目录P问题NP问题NP-complete问题NP-hard问题P问题存在多项式时间算法的问题。(P:polynominal,多项式)。NP问题(NP:Nondeterministic polynominal,非确定性多项式)能在多项式时间内验证得出一个正确解的问原创 2021-07-25 20:49:17 · 674 阅读 · 0 评论 -
[机器学习] 第四章 决策树 2.Q & A
目录1.Q:决策树和条件概率分布的关系?2.Q: ID3和C4.5算法可以处理实数特征吗?如果可以应该怎么处理?如果不可以请给出理由?3.Q:既然信息增益可以计算,为什么C4.5还使用信息增益比?4.Q:基尼指数可以表示数据不确定性,信息熵也可以表示数据的不确定性. 为什么CART使用基尼指数?5.Q:决策树怎么剪枝?6.Q:为什么使用贪心和其发生搜索建立决策树,为什么不直接使用暴力搜索建立最优的决策树?7.Q:如果特征很多,决策树中最后没有用到的特征一定是无用吗?8.Q:决原创 2021-07-25 21:43:40 · 102 阅读 · 0 评论 -
[机器学习] 第八章 集成学习 1.Boosting(GBDT & Adaboost & Xgboost) & Bagging(随机森林)
BoostingBagging原创 2021-07-02 20:54:40 · 157 阅读 · 0 评论 -
[机器学习] 第十五章 规则学习
参考:http://www.lunarnai.cn/2017/11/16/watermelon-chap-15/参考:西瓜书1.Q:什么是规则学习?规则:语义明确,能描述数据分布所隐含的客观规律或领域概念的逻辑规则。对于规则,我们可以将其视作一个子模型,而规则集合就可以看作是集成模型。若一个样本满足一条规则,我们称之为被覆盖,那么我们需要规则集能够覆盖尽可能多的样例。冲突:当每条样本被规则判定为不同结果时,称之为冲突。消解冲突往往用以下方法:投票法: 判别最多的类别作为最终规则排序法:原创 2021-07-20 13:20:45 · 159 阅读 · 2 评论 -
[机器学习] 第三章 线性模型 1.线性回归 & 逻辑回归 & 线性判别分析LDA
参考:西瓜书,葫芦书线性回归线性模型逻辑回归线性判别分析原创 2021-07-05 20:26:17 · 187 阅读 · 2 评论 -
[机器学习] 第四章 决策树 1.ID3(信息增益) & C4.5(信息增益率) & Cart(基尼指数)
continue原创 2021-07-02 22:57:38 · 163 阅读 · 0 评论 -
[机器学习] 第八章 集成学习 2.偏差与方差之间的权衡
参考:https://www.zhihu.com/question/27068705方差,偏差 与 误差的关系任何机器学习算法的预测误差可以分解为三部分,即:偏差误差+方差误差+不可约的误差(对于给定的模型,我们不能进一步减少的误差)。评价一个模型的好坏还要引入奥卡姆剃刀原则(Occam’s Razor) ,这个原则是说能用简单的方法完成任务的就尽量不要复杂,在这里就是能用简单的模型去拟合就不用复杂的方法。Error = Bias + Variance (忽略系统不可约误差)Erro原创 2021-07-02 16:14:30 · 220 阅读 · 0 评论 -
[机器学习] Pytorch19种损失函数理解[下]— Cosine、MultiMarginLoss、TripletMargin、CTCLoss、NLLL&NLLLoss2d、PoissonNLL
2 损失函数2.13 cosine 损失 CosineEmbeddingLosstorch.nn.CosineEmbeddingLoss(margin=0.0, reduction='mean')最相似的情况:余弦相似度cos(x1,x2) 为1,loss=0参数:margin:默认值02-14 多类别分类的hinge损失 MultiMarginLoss一个样本属于一个类。不同类分类损失可以设置权重torch.nn.MultiMarginLoss(p=1, margin=1.0, wei原创 2021-06-22 01:06:05 · 1202 阅读 · 0 评论 -
[机器学习] Pytorch19种损失函数理解[中]— MarginRanking、Hinge&HingeEmbedding、MultiLabelMargin、SoftMargin、SmoothL1
参考:https://www.shuzhiduo.com/A/1O5EZv6Wd7/参考:https://blog.csdn.net/nstarlds/article/details/104733459/MarginRankingLoss原创 2021-06-22 00:02:47 · 455 阅读 · 0 评论 -
[机器学习] Pytorch19种损失函数理解[上]— L1、MSE、CrossEntropy、KL、BCE、BCEWithLogits loss function
损失函数通过torch.nn包实现。1 基本用法criterion = LossCriterion() #构造函数有自己的参数loss = criterion(x, y) #调用标准时也有参数2 损失函数2-1 L1范数损失 —— L1_Loss计算 output 和 target 之差的绝对值。torch.nn.L1Loss(reduction='mean')参数:reduction-三个值,none: 不使用约简;mean:返回loss和的平均值; sum:返回loss的和原创 2021-06-20 02:39:58 · 570 阅读 · 0 评论 -
[机器学习] SSE,MSE,RMSE,R-square指标讲解
参考:https://blog.csdn.net/l18930738887/article/details/50629409SSE(和方差、误差平方和):The sum of squares due to errorMSE(均方差、方差):Mean squared errorRMSE(均方根、标准差):Root mean squared errorR-square(确定系数):Coefficient of determinationAdjusted R-square:Degree-of-freed原创 2021-06-16 23:39:33 · 2243 阅读 · 2 评论 -
[机器学习] softmax,sigmoid,relu,tanh激活函数
参考: https://blog.csdn.net/weixin_43483381/article/details/105232610结构上的区别:可以看出最大的区别在于softmax的计算的是一个比重,而sigmoid只是对每一个输出值进行非线性化。但是当输出层为一个神经元时,此时会使用sigmoid代替softmax,因为此时还按照softmax公式的话计算值为1。softmax一般用于多分类的结果,一般和one-hot的真实标签值配合使用,大多数用于网络的最后一层;而sigmoid是原本原创 2021-06-16 15:13:46 · 470 阅读 · 3 评论 -
[机器学习] 信息熵、交叉熵、KL散度、JS散度、Wasserstein距离
参考:https://blog.csdn.net/Dby_freedom/article/details/83374650参考:https://baike.baidu.com/item/%E4%BF%A1%E6%81%AF%E7%86%B5什么是熵(Entropy)?信息熵独立事件的信息量可叠加。比如“a. 张三今天喝了阿萨姆红茶,b. 李四前天喝了英式早茶”的信息量就应该恰好等于a+b的信息量,如果张三李四喝什么茶是两个独立事件。如何衡量两个事件/分布之间的不同(一):KL散度我们上原创 2021-06-13 19:03:07 · 687 阅读 · 0 评论 -
[机器学习] 第二章 模型评估与选择 2.ROC:roc_curve原理及源代码详解
代码见:https://github.com/Carrie-Yi/machine_learning/tree/main/roc_curve原创 2021-05-05 13:29:22 · 1252 阅读 · 0 评论 -
[机器学习] 第八章 集成学习 3.xgboost(iris鸢尾花数据集)
import time#加载iris数据集data=load_iris()X=data.dataY=data.targetX_train,X_test,y_train,y_test=train_test_split(X,Y,test_size=0.25,random_state=1) #训练集和测试集data_train = xgb.DMatrix(X_train,label=y_train)data_test = xgb.DMatrix(X_test,label=y_test)# pri原创 2021-05-08 22:56:22 · 589 阅读 · 0 评论 -
[机器学习] 无偏估计和有偏估计及公式证明
关于无偏估计无偏估计:对于总体,样本均值是总体均值的无偏估计,如果k阶原点距期望存在,则样本的k阶原点矩也是无偏估计, 但中心距不是。有偏方差和无偏方差有偏估计方差无偏估计方差当样本数趋于无穷时,有偏估计和无偏估计等价。无偏估计方差的公式证明关于分母为什么是n-1的通俗的理解自由度,通俗来讲,就是不受约束的变量的个数。因为μ已知,x1,…xn,n个变量只需要知道n-1个就能知道最后一个,所以自由度是n-1。...原创 2021-05-06 16:52:55 · 11338 阅读 · 1 评论 -
[机器学习] sklearn交叉验证(Cross-validation)
https://blog.csdn.net/guanyuqiu/article/details/86006474交叉验证(Cross Validation)用来验证分类器的性能一种统计分析方法,原始数据(dataset)进行分组,一部分用来为训练集(train set),另一部分做为验证集(validation set)。利用训练集训练分类器,然后利用验证集验证模型,记录最后的分类准确率为此分类器的性能指标。那么什么时候才需要交叉验证呢?交叉验证用在数据不是很充足的时候。如果数据样本量小于 一万条原创 2021-04-12 18:46:31 · 892 阅读 · 0 评论 -
[机器学习] 第二章 模型评估与选择 1.ROC、AUC、Precision、Recall、F1_score
1.非均衡分类问题类别分类代价不等例如:垃圾邮件过滤中,我们希望重要的邮件永远不要被误判为垃圾邮件。还有在癌症检测中,宁愿误判也不漏判。此时分类错误率的度量不充分所以,在分类中,当某个类别的重要性高于其他类别时,可以使用Precison和Recall多个比分类错误率更好的新指标。条件阳性(P)数据中真实阳性病例的数量条件否(N)数据中实际否定案例的数量Precision(查准率):预测为正例的样本中真正正例的比例。eg: 99正 1负 预测 1正√ 99负TP/(TP原创 2021-04-09 13:09:57 · 1974 阅读 · 0 评论 -
[机器学习] 第三章 线性模型 2.特征抽取——LDA线性判别分析(Linear Discriminate Analysis)
参考:https://blog.csdn.net/weixin_40604987/article/details/79615968特征抽取: 降维 到一个新的特征子空间,压缩数据并尽可能保留信息。1. 线性判别分析 Linear Discriminate Analysis, LDALDA 可以提高数据分析过程中的计算效率,对于不适用与正则化的模型,可以降低因维度灾难带来的过拟合。如图所示...原创 2020-03-16 20:41:43 · 761 阅读 · 0 评论