
人工智能、机器学习、深度学习
文章平均质量分 51
思考实践
以身作则,静待花开。长期主义,宇宙主义,价值导向。多角度分析问题,积极解决问题,不要停下来。THU-phd,CAS-master.
展开
-
再看正则化?为什么叫正则化?看看GPT老师怎么说
Q1:正则化项为啥叫正则化 感觉细想也是很深“正则化”这个术语实际上来源于拉丁语“”,意思是“”或“在机器学习中,正则化是),来,以避免过拟合。从更深层次的角度理解,,使它在拟合训练数据时。因此,正则化的目的就是让模型在复杂度上保持一定的“规则性”或“规范性”,从而。正则化项通常与模型参数的大小、复杂度相关,例如)可以通过约束参数的大小来防止模型过于依赖某些特定的特征,从而保持模型的简洁性。这个“规范”的作用,可以理解为让模型保持“有规律的”表现,而不是因数据中的偶然性变化而变得“无序”。原创 2025-04-04 02:05:54 · 712 阅读 · 0 评论 -
指令微调(Instruction Finetuning),有点底子就能看懂。
参考小红书用户:“想变厉害的大白菜”原创 2025-03-23 19:58:41 · 163 阅读 · 0 评论 -
universal features guided zero-sot category-level object pose论文解读
论文地址:https://arxiv.org/pdf/2501.02831原创 2025-01-11 23:26:39 · 87 阅读 · 0 评论 -
如何理解token在各个领域CV、NLP、TSF?#Tokens in Deep Learning
原创 2024-06-02 20:05:08 · 213 阅读 · 0 评论 -
Tower在深度学习中的概念,tower没有确切定义
tower这个概念貌似在REC(recommendation)推荐系统中使用较多。在论文UniTS中,来自Havard的工作。tower更像是针对一个task的组件。原创 2024-05-25 17:31:32 · 322 阅读 · 0 评论 -
深度学习有意思的探讨系列——Self-Attention那么为什么要进行缩放呢? 为什么很大的值,不利于梯度的传播?为什么使用维度的根号来进行缩放?
参考资料:(很详细,能看懂)原创 2023-12-20 15:06:25 · 659 阅读 · 1 评论 -
Child Mind Institute - Detect Sleep States(2023年第一次Kaggle拿到了银牌总结)
这个是我们比赛的总结:团队计划表,每个人做的那部分工作,避免重复,方便交流,提高效率,这个工作表起了很大的作用。原创 2023-12-09 00:19:42 · 1633 阅读 · 0 评论 -
Kaggle-Tricks自用总结
【kaggle】特征工程 trick-CSDN博客 梯度:gradient_clip_val-CSDN博客数据增强:CutMix&Mixup详解与代码实战_cutmix 代码_华为云开发者联盟的博客-CSDN博客Label Smoothing(标签平滑):标签平滑(Label Smoothing)详解_ytusdc的博客-CSDN博客 理论与举例,说明标签平滑有效! (qq.com) K-fold:【Kaggle比赛常用trick】K折交叉验证、TTA_分层k折交叉验证-CSDN博客原创 2023-11-13 21:29:56 · 237 阅读 · 0 评论 -
穿越周期,直达本质,对话朱松纯老师
术与道,显然,老师您主要精力在布道,在道其中的价值观传递分享时,自然而然会有人被吸引,因为客观来讲,抽离出来价值观,高度对齐,高度契合的时候,就自然而然会吸引有人来做术。貌似通过这种方式有可能离触达本质有很长的路要走,所以我在想,以我不严谨认为的由内发展,比如对人类本身的认识,如创造生物组织的方式。一想到要跟你交流,我迅速脸红,心跳加速,双脚发抖,但我在想了一下 今天我是谁不重要 您是谁或许也不重要而,您或者我们做的事情重要,我的心态就平和下来了 心得和交流。为机器立心,为人类谋福利。原创 2023-07-23 22:21:34 · 348 阅读 · 0 评论 -
深度学习三巨头的简要历史与人物关系及其相关工作
Hiton是祖师爷,其余两位都是很厉害的学生,都有非常厉害的工作。原创 2023-07-17 13:49:54 · 453 阅读 · 0 评论 -
机器学习中的数据泄露(Data Leakage)
数据泄露是指,在训练数据中包含目标信息,但在预测时没有可用的类似数据。这会使得训练数据(或者验证数据)效果比较好,但实际生产(预测)时效果特别差。也就是说,泄漏导致模型看起来很精确,但用模型做出来的决策却很不准确。target leakage(目标泄露)和train-test contamination(训练测试污染)细节请跳转到链接中学习。原创 2023-07-12 21:06:52 · 2505 阅读 · 0 评论 -
Imitation Learning 入门篇(一)
参考资料中有李老师的视频与网友做的笔记,很详细,相信能够帮助需要的朋友。原创 2023-07-07 10:35:25 · 242 阅读 · 0 评论 -
深度学习模型精度与PyTorch模型量化
PyTorch Tensor的默认类型为单精度浮点数fp32。bf16是为深度学习而优化的新数字格式,预测精度的降低幅度最小。化指的是使用更少的bit来存储原本以浮点数存储的tensor,以及使用更少的bit来完成原本以浮点数完成的计算。来进行权重参数的存储,比如Python float的类型为双精度浮点数。的技术,并且只支持量化运算符的前向传递。简单来说,在深度学习中,//可能没见过吧 ,BF是一种相对较新的数据格式。,模型量化,这是最广泛使用的模型压缩形式。当前的深度学习框架大都采用的都是。原创 2023-06-13 14:54:10 · 884 阅读 · 0 评论 -
被冻结的层在训练过程中参与正向反向传递,只是这一层的梯度不再更新。||底层逻辑
在微调期间,只有被激活的层的梯度会被计算和更新,而被冻结的层的梯度则会保持不变。其实从数学上去理解也不难,但自己手推还是需要花点时间的,至少先回顾一下BP。,只是自己这一层的参数不更新,其他未冻结层的参数正常更新。被冻结的层可以前向传播,也可以反向传播。原创 2023-06-12 23:05:39 · 654 阅读 · 0 评论 -
低秩矩阵(Low-Rank)的意义
比如一张大草原的图片可以理解为,草原是由很多草组成的,而草是相似的,所以如果全是草,那么这张图所包含的信息量是很少的的,因为可以理解为草是草的复制品。而图中的蒙古包,人,马之类的则可以理解为图片所包含的信息,实际上,相对于只有草的草原图片和有草和蒙古包的草原图片,后者的秩是较高的。所以总结的一点就是:如果矩阵表达的是结构性信息,例如图像、用户-商品推荐表等,那么这个矩阵各行之间存在一定的相关性,那这个矩阵一般是低秩的。所以,数学中定义,矩阵中最大的不相关的向量的个数,叫做秩,可以理解为有秩序的程度。原创 2023-06-12 22:06:38 · 6930 阅读 · 0 评论 -
AI for Robotics
基于当前AI技术实现机器人觉醒的可能性探讨_哔哩哔哩_bilibili原创 2023-06-07 12:52:03 · 115 阅读 · 0 评论 -
MiNE|互信息估计代码|pytorch版本
MiNE|互信息估计代码|pytorch版本原创 2022-12-21 09:21:01 · 2583 阅读 · 0 评论 -
how can I apply information bottleneck into deep neural network?
A:The information bottleneck principle can be applied to deep neural networks in a number of ways. One common approach is to use it to optimize the architecture of the network, such as the number and size of the hidden layers, in order to maximize the amou原创 2022-12-14 11:08:36 · 398 阅读 · 0 评论 -
DFS与DFT的关系,以及DFT与DCT的关系
DFS与DFT的关系,以及DFT与DCT的关系原创 2022-11-20 21:59:46 · 2646 阅读 · 0 评论 -
为什么选择DCT而不是DFT
为什么选择DCT而不是DFT,DFT会引入高频噪声,并且DCT有更好的能量聚集能力在低频相对于DFT而言原创 2022-11-13 10:09:06 · 612 阅读 · 0 评论 -
FECAM: Frequency Enhanced Channel Attention Mechanism for Time Series Forecasting
一维离散余弦变换:1d-dct(python实现)|关于fcanet原创 2022-11-02 13:27:31 · 1359 阅读 · 0 评论 -
Fedformer中的小波变换(FEB-w模块)
Fedformer中的小波变换(FEB-w模块)原创 2022-10-30 11:27:23 · 935 阅读 · 0 评论 -
小波变换、小波分解[python实现]//未完待续
小波变换、小波分解[python实现]//未完待续原创 2022-10-26 23:19:35 · 1070 阅读 · 0 评论 -
脉冲神经网络入门
脉冲神经网络入门原创 2022-08-25 09:51:19 · 833 阅读 · 0 评论 -
SDAE-stacked denoised autoencoder (堆栈去噪自编码器)
堆栈自编码器 Stacked AutoEncoder_浮生了大白的博客-CSDN博客_堆栈自编码器为什么稀疏自编码器很少见到多层的? - 知乎Based on blog which links were give above.code explanation for SDAE//That's a nice try自编码(AutoEncoder)模型及几种扩展之三——SDAE - 知乎All those materials give a relatively complete in...原创 2022-05-30 15:49:25 · 2183 阅读 · 0 评论 -
Transformer具体如何进行机器翻译
Transformer最具体形象的例子就是做机器翻译了,搞懂这个再去理解其他用Transformer做的下游任务就更方便了,比如时间序列预测,你搞不懂Encoder/Decoder的数据怎么喂进去的,怎么编码的,为什么编码,那不是就有点本末倒置了,基础都没get,现在的文章大部分都是直接给模型理解,没讲清楚整体流程,这篇文章的目的就是讲清楚整个流程。链接1看Encoder-decoder如何机器翻译这个看懂了,再看森哥的Transformer,再看看官方开源代码,整体概念与实现细节就差不多了,多练,忘了原创 2022-05-23 15:56:51 · 2017 阅读 · 0 评论 -
embedding层的作用理解
网上关于embedding的介绍可谓是相当含糊。比如 Keras中文文档中对嵌入层 Embedding的介绍除了一句 “嵌入层将正整数(下标)转换为具有固定大小的向量”之外就不愿做过多的解释。那么我们为什么要使用嵌入层 Embedding呢? 主要有这两大原因:1.降维:比如one-hot encoding对于大字典你encoding后数据量太大,One-hot 方法编码的向量会很高维也很稀疏,浪费内存运行空间。比如:中文大大小小简体繁体常用不常用有十几万,然后一篇文章100W字,你要表示成10.原创 2022-05-24 09:51:25 · 1334 阅读 · 0 评论 -
np、torch以及python自带的随机种子
概念应该介绍的很多了,不清楚的铁铁可以去看这篇文章:python中random.seed()究竟做什么用? - 知乎fix_seed = 2021random.seed(fix_seed)torch.manual_seed(fix_seed)np.random.seed(fix_seed)torch.manual_seed(seed)– 官方文档说明:设置 (CPU) 生成随机数的种子,并返回一个torch.Generator对象。torch.cuda.manual_s...原创 2022-05-06 20:11:20 · 1374 阅读 · 1 评论 -
使用Docker配置深度学习环境
1.首先安装Docker与Nvidia-docker,请参考链接:Ubuntu18.04安装Nvidia-Docker2_思考实践的博客-CSDN博客2.在docker中安装pytorch以及对应的cuda版本,登录dockerhub官网查看镜像,Docker Hub。如下图所示:这里直接拉取最高的:1.9.1-cuda11.1-cudnn8-devel镜像,选择devel版本的更方便。使用docker pull命令下载镜像,会下载一段时间比较久。3.镜像下载好之后,启动,使用如下.原创 2022-04-26 17:18:46 · 1502 阅读 · 7 评论 -
使用Docker安装深度学习环境【亟待解决】
参考资料原创 2022-04-27 00:00:00 · 1608 阅读 · 0 评论 -
Pycocotools笔记
speak less,show me the code.原创 2022-04-14 22:55:44 · 347 阅读 · 0 评论 -
mmdetection学习文档
参考资料MMDetection中文文档—详解 - 知乎原创 2022-04-14 22:16:22 · 335 阅读 · 0 评论 -
一维卷积神经网络及其应用【附keras代码】
这里我们先理解一维神经网络的数学理论,以及输入输出的shape,和如何计算的(164条消息) 一维卷积神经网络_卷积神经网络的基础知识_weixin_39526651的博客-CSDN博客这篇博客给的图文解释非常棒,欢迎学习(165条消息) 一维卷积_perfect_csdn1的博客-CSDN博客_一维卷积参考资料(164条消息) 一维卷积神经网络_卷积神经网络中的计算_weixin_39906521的博客-CSDN博客(164条消息) [译] 在 Keras...原创 2022-04-13 15:32:04 · 4007 阅读 · 0 评论 -
目标检测评估指标
mAP、mAP50和mAP75有什么区别呢mAP、mAP50、mAP75后面的数字表示NMS过程中设定IoU阈值的参数,EasyDL平台上展示的mAP是mAP50的数值。NMS过程中IoU用于过滤冗余框,检测框重叠部分大于IoU阈值的检测框会过滤,留下置信度最高的检测框。mAP75较mAp50更为严格,数值上一般低于mAP50参考资料mAP、mAP50和mAP75有什么区别呢 (baidu.com)(174条消息) 目标检测指标AP50,mAP理解_简单好用_胡戈戈的博客-CSD..原创 2022-04-12 09:22:33 · 4752 阅读 · 1 评论 -
3D点云目标检测
啥是点云?在逆向工程中通过测量仪器得到的产品外观表面的点数据集合也称之为点云,通常使用三维坐标测量机所得到的点数量比较少,点与点的间距也比较大,叫稀疏点云;而使用三维激光扫描仪或照相式扫描仪得到的点云,点数量比较大并且比较密集,叫密集点云。激光雷达目标检测 (上)_conwayoung的博客-CSDN博客_雷达目标检测算法激光雷达目标检测(下)_conwayoung的博客-CSDN博客...原创 2022-04-05 12:18:11 · 532 阅读 · 0 评论 -
Swin-Transformer
Reference原创 2022-04-04 19:35:18 · 494 阅读 · 0 评论 -
DETR[sub-branch for Vit]
End to End Object Detection with TransformersBecause of DETR,Transformer is getting hot again. people think transformer is just a backbone,backbone is not directly suitable for Downstream tasks.Vit like Bert ,just have the encoder part of the tran.原创 2022-04-04 19:33:27 · 1367 阅读 · 0 评论 -
ImageNet 1k and 22k
Currently ImageNet 22k is the whole ImageNetImagenet 1k is ISLVRC2012Reference 【数据集介绍】ImageNet介绍_CrazyVertigo的博客-CSDN博客_imagenetImageNet数据集到底长什么样子? - 知乎原创 2022-04-02 14:44:44 · 11711 阅读 · 0 评论 -
简话消融研究是什么意思
最近准备一个项目:参考资料(34 封私信 / 31 条消息) 消融实验是什么? - 知乎 (zhihu.com)原创 2022-03-31 01:44:56 · 1206 阅读 · 0 评论 -
Microsoft:Swin-transformer for Object Detection[-ing]
Environment :gpu 3090 24GB,Ubuntu 18.04At first,I was configure this project on windows,It's really hard to install dependency packages,it cost me two days,and got no process,today I use ubuntu then it just works.Get to pytorch offical address:PyTor.原创 2022-03-30 21:56:12 · 433 阅读 · 0 评论