机器学习中的思考
文章平均质量分 83
小白 AI 日记
昨天院子里来了一只左眼是蓝色右眼是橙色的小猫
展开
-
机器学习笔记(25)一种简单的半监督目标检测框架(2)
实验细节理论补充代码调试原创 2021-11-13 20:38:39 · 3062 阅读 · 0 评论 -
随记(1):学习《宝箱书》-可学性
本章的内容围绕学习理论中的可学性理论展开,主要讨论「事件否能够通过机器学习来解决」这一问题。通过学习理论事先辨别某个问题是否能够被学习,将节省大量的时间与资源。1. 补充证明:经验误差的期望等于其泛化误差P25提到,当样本从样本空间独立同分布采样得到时,经验误差的期望等于其泛化误差。在此,对该证明进行补充。首先需要补充说明「经验误差」和「泛化误差」的概念:泛化误差:泛化误差其实是一个理想化的误差概念。计算泛化误差需要知道样本的真实分布,而在大多数时候,数据样本的真实分布情况并不为人所知。由于原创 2021-11-13 19:03:54 · 1609 阅读 · 0 评论 -
机器学习笔记(24)一种简单的半监督目标检测框架(1)
在第一阶段,使用所有标记的数据训练一个目标检测器(例如,Faster RCNN)直到收敛。然后使用训练过的检测器预测未标记图像的边界框和类标签(也就是生成初步的伪标签的过程),如图所示。然后,受FixMatch设计的启发,对每个高阈值的预测框(经过NMS)进行基于置信度的滤波,获得高精度的伪标签。第二阶段对每幅未标记图像进行强数据增强,利用第一阶段生成的标记数据训练出的模型和未标记数据及其伪标签进行训练。受RandAugment及其对SSL和目标检测的成功适应的鼓舞,我们设计了目标检测的增强策略,其中包括全原创 2021-11-12 10:52:27 · 4828 阅读 · 10 评论 -
机器学习笔记(23)CV领域的Semi-Supervised Learning
计算机视觉中的半监督学习:计算机视觉中的半监督学习 - 知乎原创 2021-11-09 22:57:13 · 1915 阅读 · 0 评论 -
机器学习笔记(22)基于分歧的半监督学习:基础与算法
集成学习从数据中显示或隐式地学习多个模型,并将它们有效结合以获得更可靠和更准确的预测,因此,集成学习的关键是(a)如何从数据中学习多样且准确的模型,以及(b)如何有效地结合它们以获得更好的结果。集成学习与其他机器学习方法(如深度学习和核学习)的核心区别在于:它专注于偏差-方差权衡(Bias-VarianceTradeoff)问题---这是所有机器学习方法,无论是深度学习还是经典机器学习方法与生俱来的根本问题。正是这个独特的研究视角,使集成学习对包括深度学习在内的所有机器学习方法都很有价值。...原创 2021-11-08 23:41:45 · 1443 阅读 · 0 评论 -
机器学习笔记(21)半监督学习相关
未标记的数据有什么用?[1]随着数据收集和存储技术的发展,在现实应用中积累大量数据变得越来越容易。但是,由于需要耗费大量人力和专业知识,标记这些数据代价高昂。例如,在计算机辅助医疗诊断中,通过常规体检就可以获得大量X光影像,但是却很难请医生标记出所有图像中的感染病灶。此时,如果使用传统的监督学习技术来构建诊断系统,仅可使用那一小部分被标出病灶的影像数据。由于已标记训练样本的数量非常有限,很难获得一个具有较强能力的诊断系统。因此,一个自然的问题就是:是否能利用大量的未标记数据和少量的已标记样本构建强大的学原创 2021-11-08 11:09:36 · 738 阅读 · 0 评论 -
机器学习笔记(20)读周老师《探索从纯学习到学习 + 推理的 AI》有感
写在前面多数转载自:周志华教授发表首届国际学习与推理联合大会 IJCLR 开场 Keynote:探索从纯学习到学习 + 推理的 AI-ZAKER新闻周志华老师每次讲这种综述性的话题时,讲到后半段就是自己的工作。我可真是太佩服了。我有时候就在想即使周老师是位大牛,那他也不可能在每个ML领域都要做成果啊。我看了很多场周老师的汇报,似乎有好多独立的领域。今天看到这场报告才有了点眉目。正文南京大学计算机系主任兼人工智能学院院长周志华教授作了大会的开场主旨报告,分享了题为《利用无标签数据:从 「纯转载 2021-11-05 19:38:37 · 480 阅读 · 0 评论 -
机器学习笔记(19)面试准备(2)补一补ML基础知识
线性回归和逻辑回归的异同RPN区域提议网络(Region Proposal Network),是一个通过卷积生成archor的过程。RPN第一次出现在世人眼中是在Faster RCNN这个结构中,专门用来提取候选框。RPN的引入可以说是真正意义上把物体检测整个流程融入到一个神经网络中,这个网络结构叫做Faster RCNN,即Faster RCNN = RPN + Fast RCNN参考:RPN 解析_lanran2的博客-CSDN博客_rpnarcher-base和archer-原创 2021-09-14 16:41:06 · 365 阅读 · 0 评论 -
机器学习笔记(18)面试准备(1)一些零零碎碎的知识点
L1正则化与L2正则化详解原创 2021-09-05 22:25:23 · 134 阅读 · 0 评论 -
机器学习笔记(18)MLP-Mixer的介绍和一点想法
论文论文题目:MLP-Mixer: An all-MLP Architecture for Vision论文地址:https://arxiv.org/pdf/2105.01601.pdf最近看了下这篇论文,很受启发,这里写一写,另外也感谢这位博主的分享:https://blog.csdn.net/guzhao9901/article/details/116494592,在这里也学到了很多论文噱头一个纯MLP架构详解看到论文的第一反应就是:这不就是Transformer的框架图吗原创 2021-08-20 15:46:54 · 1037 阅读 · 0 评论 -
机器学习笔记(17)使用XGBoost完成高维数据的分类任务
摘要:XGBoost作为一种高性能集成算法在Higgs机器学习挑战赛中大放异彩后,被业界所熟知,之后便在数据科学实际工程中被广泛应用。本文首先试从原理解析XGBoost分类器的具体构成并推导其理论公式以指导读者了解何种指标会影响XGBoost的性能表现。然后以一个高维网页广告数据集的分类任务入手,探讨XGBoost在数据集需要大量缺省值的处理、大量空白值的处理、正负样本比例失衡处理、离散型特征和连续性特征共存问题处理、数据特征维度较高情况处理条件下的表现,并针对XGBoost的不足之处提出一些解决方法和原创 2021-04-26 22:11:57 · 6405 阅读 · 4 评论 -
机器学习笔记(16)ML的评价指标
也算是一篇基础知识的回顾与总结了,今天来聊一聊ML中的那些评价指标IoU(交并比)参考资料:https://blog.csdn.net/u014061630/article/details/82818112目标检测的评价指标AP和mAP的计算中一定会涉及到IoU,此外它也是语义分割任务的重要评价指标链接中描绘了从以为数组扩展到二维矩阵的IoU计算方法precision和recallprecision(精确率):你预测出的结果有多少是正确的。recall(召回率):正确的结果有多少被你给原创 2021-04-24 15:27:24 · 222 阅读 · 0 评论 -
机器学习笔记(15)轻型网络(MobileNet GhostNet ShuffleNet)的计算量
之前的论文中涉及到了论述几种经典轻型网络的计算量问题(以及为什么可以减少计算量),但是忘记做一个整理,今天来聊一聊这个参考:https://blog.csdn.net/hongbin_xu/article/details/82957426 https://blog.csdn.net/mzpmzk/article/details/82976871深度分离卷积:Depthwise Separable Convolution在进入经典网络的描述之前我们先来了解一下一种很神奇的卷积:...原创 2021-04-15 22:44:08 · 1020 阅读 · 0 评论 -
机器学习笔记(14)Transformer(三):positional encoding的理解
关注这个问题很久了,但一直没有看到太满意的答案,今天终于在知乎中找到了一种非常清晰的解释。知乎连接:https://www.zhi首先,需要明确的是,建模位置信息(无论是绝对位置还是相对位置)并不是必须用到三角函数,否则fairseq和BERT中使用的positional embedding也不会奏效了。我想,作者在这里使用正余弦函数,只是根据归纳偏置和一些经验作出的选择罢了。不妨从零构想一个位置编码的方法。首先,给定一个长为T的文本,最简单的位置编码就是计数,即使用PE = pos = 0,1,原创 2021-04-15 22:01:10 · 841 阅读 · 0 评论 -
机器学习笔记(13)Transformer(二):self-attention与seq-seq中的attention不同
Transformer最近很火,相应的kaggle中很多比赛最近开始大量使用Transformer及其变体。Transformer之所以奏效,attention机制起了很大的作用,这次我们聊一聊attention机制参考:https://zhuanlan.zhihu.com/p/46250529 https://zhuanlan.zhihu.com/p/47470866 https://blog.csdn.net/fan_fan_feng/article/de...原创 2021-04-15 16:44:37 · 956 阅读 · 0 评论 -
机器学习笔记(12)图解LSTM与GRU的区别以及各单元公式推导
发现无论哪场面试,LSTM与GRU的细节区分被提问的概率都很高,今天简单分析一下参考资料:https://m.sohu.com/a/336551522_99979179LSTM公式为i的计算常被称为输入门,f的计算常被称为遗忘门,注意和tahn做运算的是输入门。简单说明LSTM的整个过程:1.首先输入为三个值,一个是此刻的输入值x,另一个是上一时刻的状态值c(t-1),最后一个是上一个隐含层单元的输出h(t-1)2.最终输出为两个值,一个是此刻产生的状态值c(t)和输出h(t)3.首先原创 2021-04-15 15:30:22 · 488 阅读 · 0 评论 -
机器学习笔记(11)Tensorflow的动态图与Pytorch的动态图
关于Tensorflow与Pytorch之间可用性、易用性、速度、部署能力的选择之争历来有之,但由于迄今为止深度学习框架已经发展了相当长一段时间,框架各自的缺点在一次次的更新迭代中被优化与改进,如Tensorflow目前也更新了所谓具有动态图的版本,对两者区分的意义越来越小。虽然如此,对这两个经典框架的区分还是比较有学习意义的。正文tensorflow和pytorch的区别:首先能想到的肯定是tensorflow是静态图计算,而pytorch是动态图。那么它们究竟是什么意思呢?在框架中又是如何体..原创 2021-04-07 09:23:27 · 669 阅读 · 0 评论 -
机器学习笔记(10)数据增强
很多实际的项目,我们都难以有充足的数据来完成任务,要保证完美的完成任务,有两件事情需要做好:(1)寻找更多的数据;(2)充分利用已有的数据进行数据增强。今天就来说说数据增强。1、什么是数据增强?数据增强也叫数据扩增,意思是在不实质性的增加数据的情况下,让有限的数据产生等价于更多数据的价值。比如上图,第1列是原图,后面3列是对第1列作一些随机的裁剪、旋转操作得来。每张图对于网络来说都是不同的输入,加上原图就将数据扩充到原来的10倍。假如我们输入网络的图片的分辨率大小是256×256,.转载 2021-04-01 15:47:30 · 2430 阅读 · 0 评论 -
机器学习笔记(9)优化Optimization与正则化Regularization
OptimizationGD&SGD我觉得算法的流程还是应该放在这里,时常回忆学习率最近的几次kaggle比赛学习率在开始阶段选择的都不是很理想Momentum、Nesterov Momentum、AdaGrad、RMSprop、Adam、AdaDelta这些中常用的就是Momentum、RMSprop、Adam优化策略:Batch NormalizationBN训练时根据每一个批次计算并都记录下来,推理时因为参数都已经固定了下来,把这些均值和方差做平均(就当做全原创 2021-03-30 17:31:59 · 266 阅读 · 0 评论 -
机器学习笔记(7)stacking算法
一.Stacking思想简介1.Stacking的思想是一种有层次的融合模型,比如我们将用不同特征训练出来的三个GBDT模型进行融合时,我们会将三个GBDT作为基层模型,在其上在训练一个次学习器(通常为线性模型LR),用于组织利用基学习器的答案,也就是将基层模型的答案作为输入,让次学习器学习组织给基层模型的答案分配权重。2.下图是个简单的例子,A、B是学习器,C、D、E是进行答案再组织的次学习器,次学习器会组织利用底层模型提供的答案。二.Stacking过程解读 Stacki...转载 2021-01-15 10:16:38 · 5736 阅读 · 1 评论 -
机器学习笔记(8)Transformer(一):self-attention与block
这里是关于Transformer的基本介绍,其中提到对于Transformer来说self-attention模块的引入尤为重要,这里简单记录一下对于self-attention的简单理解。首先self-attention模块的工作原理不很复杂,是说对于一个y=wx,其中w的计算是接借助xi与X中xi的补集点积得到的,这句话描述的不太清晰,但结合第四幅图基本就清晰了。那么self=attention为什么可以工作哪?图四也给出了原因:self-attention关注的是两个矢量之间的信息传播...原创 2021-03-26 14:15:11 · 2077 阅读 · 0 评论 -
机器学习笔记(6)贝叶斯分类器
理解贝叶斯公式以及贝叶斯分类器https://zhuanlan.zhihu.com/p/26262151最大似然估计与最小二乘法是等价的https://www.bilibili.com/video/BV1aE411o7qd?p=10拉普拉斯修可避免其他属性携带的信息被训练集中未出现的属性值“抹去” ...原创 2020-07-23 08:29:02 · 271 阅读 · 0 评论 -
机器学习笔记(5)集成算法
Boosting集成算法说起先对boosting做一个综述,我强烈推荐周志华老师的这个演讲。不必要求自己全部听懂,刚刚接触时有个大致的了解即可:https://www.bilibili.com/video/BV1Cs411c7Zt?from=search&seid=4041113678172647117 同时配合5年后的这篇推文:https://mp.weixin.qq.com/s/Jnh7yIOmzbTvWk77zh2-lA两者综合来看可以透彻地了解boosting的前世今生,bo原创 2020-06-29 14:44:26 · 493 阅读 · 0 评论 -
机器学习笔记(4)Tree Model
决策树信息与熵以及它们的量化(过往的来客买个沙甜的西瓜吧)1 熵:一种事物的不确定性被称为熵(该挑什么样的西瓜,具有不确定性)2 信息:消除不确定性的事物 如调整概率(根据西瓜的颜色、条纹等特征增大判断的准确率)、排除干扰,也有可能直接确定情况(卖瓜人:切开不甜不要钱)3 噪音:不能消除某人对某件事情的不确定性4 数据:信息+噪音(去买瓜时所有看到的可为买瓜做出的参考与听到的包括老板叫卖声在内的整体)5 熵的度量:先明确所谓的度量都是指确定一套统一的标准,然后将需要需要度量的事物皆.原创 2020-06-29 14:44:22 · 820 阅读 · 0 评论 -
机器学习笔记(3)ML在应用上的优缺点
最近找到一本ML实战应用的资料很是不错,记下了很多东西,整理后一次性发布。先占个位,防止自己又忘掉(狗头)比如SVM的优点听起来有点玄幻:因为SVM理论保证太充足了,这个模型直接拿过来用,不调参效果都比较好。...原创 2020-06-29 14:44:00 · 476 阅读 · 0 评论 -
机器学习笔记(2)梯度下降法详解
梯度下降法简单来说就是一种寻找目标函数最小化的方法。只要你接触机器学习领域或者说接触深度学习领域你就一定会见到它,有人说是梯度下降法成就了这几年深度学习的发展,可见其重要性。有关于梯度下降法的推导、证明方法有很多,读者若是感兴趣可多找一些资料了解一下。我的写作风格一直都是力争简明概要,鉴于此原则我选择推导这种非常简洁的证明方式。 假设一连续可导的函数 f ,给定绝...原创 2020-03-28 21:51:26 · 325 阅读 · 0 评论 -
机器学习系列(1)SVM的公式推导
机器学习与深度学习 在深度学习“家喻户晓”之前,这种技术一直以“神经网络”的名义活跃于学者们的研究和工作者们的项目中。深度学习或者神经网络都属于机器学习的一个子类,理所当然地深度学习会具备机器学习中的一些共有特性,尽管近几年深度学习发展出了很多“专属”问题。近期更新的这个系列我们会以机器学习中常见算法的一些特殊性出发,探究一下它们会对我们的日后深度学习的学习带来哪些启发。SV...原创 2020-03-16 20:47:13 · 957 阅读 · 0 评论