irony_202-CSDN博客

原创 python语法

而对于tensor的计算操作，默认是要进行计算图的构建的，在这种情况下，可以使用 with torch.no_grad():，强制之后的内容不进行计算图构建。https://www.bmabk.com/index.php/post/12513.html 切分数据集并保留数据集的class和target属性。原文链接：https://blog.csdn.net/weixin_44134757/article/details/105775027。

2023-03-13 11:02:25 168

原创 Tensorflow安装

使用GPU的话tensorflow版本只能用2.6（keras版本相同），cuda版本可以用显卡支持的最新的。

2023-02-01 15:33:42 226

转载 tensorflow2.0模型的保存与读取

https://blog.51cto.com/u_15483653/4926726

2022-12-26 18:53:45 478

原创从零开始安装anaconda+pytorch+pycharm

六、安装并运行pycharm选择添加新解释器，找到虚拟环境里的python。四、利用anaconda的图形界面创建虚拟环境。五、在虚拟环境的终端安装pytorch。二、下载显卡对应的cuda版本并安装。三、安装anaconda，可冲最新版。...

2022-08-31 17:17:52 508

原创视频理解论文精读笔记

视频理解

2022-06-16 12:52:36 498

原创生信学习笔记-第二章

生信

2022-06-01 11:06:25 416

原创李沐论文精读-参数服务器学习笔记

特点：一个通用的机器学习大型参数服务器，且通信数据压缩（一致性哈希以及各种特异性过滤）和容灾（向量钟）做的很好。但其实一般的机器学习主要的瓶颈在于计算量上，因此分布式服务器相对少见，而在如今大规模无监督文本数据训练的超大语言模型的环境下，参数服务器又有了发挥的舞台。架构：主要分为服务器端和用户端，通过一个资源管理器来协调两者之间的通信，其中服务器端、用户端也分别有自己的任务管理者，负责服务器的分配以及用户工作任务的分配。容灾：采用向量钟将数据备份，具体做法是将服务器需要存储的数据看成一个环，然后用

2022-05-29 22:21:25 400

原创生信学习笔记第二节

一、人类基因相似度达到99.9%，仅一两个碱基对不同就会导致性状不同二、基本的生化工具1.剪切dna:1.限制酶-碰到特定碱基序列就会将dna剪开2.猎枪法-类似搅拌机，将dna随机切为小片段2.克隆dna:1.(前)利用病毒-将需要的dna插入到带抗生素基因的病毒中(通过限制酶)，然后培养病毒，最后杀死不带病毒的培养菌，将所需dna提取出来2.(现)PCR-用热水，将dna双链打开，利用引物复制dna，降温稳定一个循环。...

2022-05-03 16:00:15 304

原创生信学习笔记第一节

DNA碱基对AG较大，TC较小，AT(RNA中是U)配对，GC配对DNA复制合成是从5’磷到3’磷的方向进行的，因此双螺旋解开后会分为两种合成方式，一种是直接从5’到3’合成，是连续的，称为领先股；另一种由于解链是从3’到5’的，所以无法直接正向合成，只能一小段一小段反向复制，再由dna聚合酶合成dna填充间隙。反向DNA复制是由rna引导完成的。...

2022-04-26 18:06:08 167

原创 I3D论文精读笔记

I3D（inflation 3D）有两个重要贡献：1.可以用2D（图片）预训练好的模型参数扩展到3D（直接将conv层和pooling层多加一个维度（时间），但不要进行下采样，其原因是一般视频输入的时间已经很短，而为了保证2d模型和3d模型同样的输入情况下的输出一样，需在将2d模型的参数赋给3d模型的同时除以n（指一次输入的帧数））。2.提供了一个比较好的数据集k400（足够大，种类均匀），可以让你从头训练一个模型。...

2022-04-12 19:52:36 1790

原创 OpenAI Codex、DeepMind AlphaCode论文精读阅读笔记

Codex：基于GPT的语言模型，用Github上的代码进行微调（有意思的是GPT的卖点就是不用微调）。模型没怎么改动，主要精力在于准备预训练数据和微调数据集（微调数据集应尽可能和你要进行评估的任务相近）上目标函数的分数不采用常见的BLUE分数因为相同的子序列多并不意味着写出的代码就有效，因此作者团队自己设计了一个pass@K，即每个词采样softmax分数总和0.95的输出，在这些词里面每次随机采样，最后看生成的答案能否通过测试，若以100次采样中有1次能通过测试则算成功，准确度能达到接近80%。

2022-03-26 21:36:06 4508

原创 GPT、GPT-2、GPT-3论文精读笔记

GPT：使用通用的预训练提升自然语言的理解能力使用没有标号的文本来预训练模型，最后在子任务上微调模型。GPT使用的目标函数1是通过前k个词来预测第k+1个词，任务难度要比BERT的完形填空（根据上下文信息来预测中间被mask的词）要难很多，当然如果能够训练起来，能力也要强大很多。由于是通过前k个词来预测，因此GPT使用的是transformer的解码器（只在当前及之前的特征上做自注意力，之后的都被mask）而非编码器（可以看到全局的特征）。微调：...

2022-03-26 15:31:15 5350

原创 BERT总结笔记

1.由于完形填空等任务是可以双向看句子的，因此BERT只采用的transformer的编码器。2.BERT输入的第一个向量永远是[CLS]，后续进行下游任务（如情感分析等）时可以用第一个向量的输出训练一个分类头，其他单词的输出应该就是单词。3.BERT可以输入两个句子，具体做法是在第二个句子开始前加上【SEP】结尾加上【SEP】，同时去学一个嵌入层和位置信息一起用在输入刚刚嵌入之后进行加和。4.BERT的预训练方式是将输入的句子中15%的单词替换成[MASK]即掩码，通过预测这个词来训练整个编码器。由

2022-03-25 22:49:39 468

原创 transformer总结笔记

1.输入先经过一个全连接的嵌入层，变成一个维度设定好的向量，经过编码器/解码器，每个向量都会由自注意力机制经过一个线性投影层（多头自注意力会将向量的维度拆分，每个头注意一部分的维度，最后将每个头的输出再合并）产生为3个向量，即querry（查询）、key（和查询相乘得到相似度）、value。每个querry去乘所有的key，分别得到和其他key的相似度（向量的点乘代表cos），之后将所有的value进行加权和，权重由querry和key的相似度决定（将querry和所有key点乘（当维度过大时，可以除以一个

2022-03-25 22:12:33 564

原创 ResNet总结

1.采用了1*1的卷积投影使输入和输出的通道数一致2.输出变成了f（g（x））+g（x）保证深层网络的梯度，不会因为连乘而导致梯度消失，训练起来比较快。3.能有效降低模型复杂度，因为有了残差连接，深层网络直接失效也不会影响最后输出。...

2022-03-25 20:41:06 234

原创 CNN学习笔记

卷积层：同一个卷积核需要由多个神经元来识别不同的模式（filter），而经过第一层卷积后，第二层输入的channel数就会变成第一维的filter数（channel膨胀）汇聚层：原理就是将一个图片下采样（比如把x，y轴为偶数的像素去掉），图片不会有太大影响（当然对图片细节还是会有影响），因为图片是像素点，存在大量冗余信息，用pooling可有效减少图片大小，减少参数和计算复杂度，汇聚层没有参数，经过后channel不变。经过卷积层和汇聚层，将图片维度缩小，通道数增加，增加数为filter的数量。注意！

2022-03-24 23:54:47 98

原创双流网络论文精读笔记

双流：空间流（单张图片）和时间流网络。深度学习首次超过手工抽特征的方式。空间流采用单帧的输入，主要用来描述物体的场景信息（物体本身就是很强的线索）。时间流（光流）主要用来抽取动作特征（动的地方是光点），然后利用卷积神经网络能很好实现图片与分类的映射来解决动作识别的问题。最后在进行加权平均或在得到的softmax分数上再训练一个svm做分类光流的叠加方式：1.直接简单粗暴的叠在一起作为输入 2.将光流图基于轨迹的连接3.双向光流：既计算前向光流又计算后向光流作者采用的是十个光流（十一帧）作为一次输出

2022-03-23 22:36:57 475

原创 swin transformer 论文精读读后感

swin transformer：多层级基于移动窗口的transformer动机：由于图像和自然语言还是有所区别，图像对同一物体可能出现在多尺度上，而ViT采用的是固定尺寸patch并且在全局上做自注意力，需要平方级的复杂度，而对于视觉领域一些下游任务需要多尺度以及高分辨率的情况下，ViT需要花费的资源太大导致无法训练，因此swin transformer结合了CNN和ViT的特点，将图片打成4*4的patch，再采用滑动窗口的模式一步步的合并做自注意力，从而达到了全局建模的效果，能够节省大量运算复杂度，

2022-03-22 23:05:36 189

原创对比学习论文综述读后感

百花齐放1.instdis：money bank 大字典，编码器动态2.inro：simclr前身，端到端模式，小字典3.CPC（对比预测编码）：代理任务是通过有时序的输入提取的特征预测后续的输入，真实的后续输入提取的特征是正样本，其他随机采样的x提取的特征是负样本。4.CMC（对比多视角编码）：试图通过找到多模态下同一事物的特征的共同点。多模态（视角）下同一事物的特征互为正样本，而把其他事物的特征作为负样本。局限性：不同的视角输入需要不同的提取特征的编码器，训练代价较大。transformer可能

2022-03-21 22:32:05 198

原创 deepmind用AI指导数学直觉精读读后感

在猜想阶段，如果我们想知道z的两种特性f（z）和g（z）是否有关联，可以通过机器学习一个模型S，让S（f（z））尽可能≈g（z），如果准确度高于随机猜，说明可能真的存在某种关联，之后可以用归因技术找出有关联的特征。归因技术：找出输入对输出的梯度，梯度大的特征可能比较重要，梯度小的说明可能不那么重要（改变xi对y的变化大不大）。autogluon提供了一个auto ai库，可以用来快速得到一个结果。...

2022-03-21 22:22:48 146

原创 acwing 算法基础班学习笔记-第六讲.贪心思想

贪心思想总结来说就是每步都选择当前最优的决策，最后也收敛到全局最优点，因此不是所有问题都能使用贪心思想，能用贪心思想解决的问题往往具有某种单调性。一、区间问题：1.区间选点：给定 N 个闭区间 [ai,bi]，请你在数轴上选择尽量少的点，使得每个区间内至少包含一个选出的点。输出选择的点的最小数量。思路：所有区间都在同一个数轴上，则显然有一定的单调性。将区间按右端点排序，则从小到大遍历每个区间的左端点，若小于上一个重叠区间的右端点，说明是可以加入集合的，则保持不变；若大于，则说明这个区间和上一个重叠区

2022-03-21 17:04:51 188

原创 acwing 算法基础班学习笔记-第五讲.动态规划

动态规划的核心思想是把一个状态转移成已知状态，因此分为两部分：状态表示需要保证所有状态不重不漏，状态计算即将当前状态转变为已知状态，或保证如此转移最终能走到边界，而边界值确定。一、背包问题1.01背包：每件物品只能选一次状态表示：f[i][j] 表示从前i个物品中选，重量不超过j的最大价值。状态计算：f[i][j] =max（f[i-1][j] ， f[i-1][j-v[i]] +w[i] ）（当前状态可分为选了第i件物品的价值最大值和没选第i件物品的最大值）初始i=0或j=0时，f[i][j

2022-03-20 17:43:04 321

原创判别类模型和生成类模型的区别

判别类模型学到的是一个判别边界，根据输入x来判别是y的概率。而生成类模型学到的实际上是对于不同的分类y，x的分布，对于输入x，生成类模型是通过x与学到的不同分布比较，找出最相似的那个分布对应的y。在机器学习中任务是从属性X预测标记Y，判别模型求的是P(Y|X)，即后验概率；而生成模型最后求的是P(X,Y)，即联合概率。...

2022-03-19 22:32:44 793

原创 moco论文精读读后感

无监督学习的最终目标就是在一个大的数据集上预训练好一个模型（提取特征），然后迁移到下游任务上也能有一个较好的精度。对比学习：无监督学习的一种，一般是通过一个代理任务来生成正样本和负样本来实现自监督学习，如moco使用的instance discrimination 就是把一个图片做两次数据增强，一次的结果作为锚点，另一次的结果作为负样本，然后把batch里其他所有图片作为负样本。由于图片像素点不像自然语言的词具有离散性以及明确的语义，图片的像素点是连续且冗余的，因此要想无监督学习得到一个跟NLP领域类似

2022-03-19 22:16:13 1837

原创 MAE论文精读读后感

MAE（带掩码的自编码器）主要是在vit的基础上参考BERT（带掩码的自监督训练）为什么CV之前没有人用带掩码的自监督训练？（与NLP领域的区别）：1.原来采用的CNN卷积神经网络不好学习掩码（CNN不好抓取一个特定的点）2.文字每个字包含了明确的语义信息，而图片一块像素点存在很多冗余信息（若在图片中只摘除几个点很容易就能通过周围的像素信息复原，而语言文字中少了一两个词都很难还原整个句子信息），因此MAE采用了75%遮盖这种比较有挑战性的任务来减少图片像素冗余信息带来的影响。3.用于还原原本像素的

2022-03-18 21:03:26 534

原创 acwing 算法基础班学习笔记-第四讲.数学知识

一、质数1.判断一个数n是不是质数，只需从2开始一直遍历到根号n即可，因为如果n能被一个小于根号n的数整除，那么必定存在一个大于根号n的数。筛质数：1.暴力做法：从2遍历到n，不管遍历到的是质数还是合数，都把他的倍数筛掉（Onlogn）。2.埃式筛法：仅用遍历到的质数把后面的所有合数筛掉（Onloglogn）3.线性筛：用最小质因子去筛合数（质数从小到大遍历，筛掉iprimej，若i%primej = 0说明当前质数是i也是iprimej的最小质因子，若j再+1，则当前质数不是i*primej的最

2022-03-18 16:39:44 3412

原创 vit论文精读读后感

vision transformer打破了CV和NLP领域的鸿沟，通过将一张图片切成小块后按序输入给模型（将一个像素点在三个通道的特征打平，变成一个像素点对应768个维度的特征），将CV问题转变成NLP问题，采用了bert的只用一个编码器的结构，结果证明了是可行的，并且在大数据集预训练后分类效果比之前最好的CNN效果还要好，并且训练速度更快。但是vit在较小规模的数据集效果不行，因为vit缺少了cnn的很多归纳偏置，需要较大的数据集去重新学习很多cnn一开始就灌输的经验如局部性和平移不变性。...

2022-03-17 21:32:39 2067

原创 acwing 算法基础班学习笔记-第三讲.搜索和图论

一、DFS深度优先遍历，需要维护一个st数组来表示每个节点是否被访问过，若不止一条路径则还需要恢复st数组的值（恢复状态）。剪枝：当遍历除了节点是否被访问以外还有其他条件时，可同时判断条件是否成立和节点是否被访问，若不成立则跳过该节点，最后只返回走到终点的路径。树和图的深度优先遍历问题：树的重心。可用节点的子节点个数s代表一个子连通分量，n-s代表除去这个节点和其子节点外其他所有节点的个数，迭代更新。二、BFS广度优先遍历，将每次可操作的状态压入队列，若队列非空则访问队头元素，距离+1。注意八数码

2022-03-15 18:07:08 681

原创 acwing 算法基础班学习笔记-第二讲.数据结构

一、单链表head存储头结点，e[i]存储第i个结点的值，ne[i]存储第i个结点下一个结点的结点号二、双链表在单链表的基础上，把ne数组改为l和r数组，分别用来存储第i个结点上一个结点和下一个结点的结点号。三、模拟栈数组模拟栈：新建一个数组，用tt变量表示当前栈顶。先进后出数据结构。用于表达式求值：采用两个栈，一个存放操作数，一个存放操作码，依次读入字符串，读入数字则压入操作数栈，读入字符若当前字符优先级比操作码栈顶字符小则进行计算（弹出两个操作数和一个操作符进行计算，将结果压入操作数栈）直到

2022-03-14 16:25:27 434

原创 GAN论文精读读后感

GAN：生成对抗网络，架构采用了一个生成模型和一个判别模型，生成模型的输入是一个100维的均值为0方差为1的高斯分布，通过多层感知机来学习一个映射参数来拟合原输入x，判别模型的输入是x和生成模型的输出（标签分别是1和0）。目标函数为其中判别模型需要最大化这个函数，生成模型要最小化右边的式子。具体过程：每次从z中采样m个噪声样本，从x中采样m个真实样本作为小批量来更新判别器的参数，再用m个噪音样本来更新生成器参数，判别器的性能不宜过强与过弱，否则会影响生成器的更新动力。目标函数的正确性（理论）：

2022-03-14 00:00:25 994

原创 acwing 算法基础班学习笔记-第一讲.基础算法

一、快速排序算法核心是分治思想：选择一个点为轴心，将所有小于它的数放到它的左边，所有大于它的数放到它的右边，然后递归排序两侧的空间。二、归并排序1.划分：将待排序序列递归划分为长度为1或0的子序列（必定有序）2.归并：将两个有序序列归并，核心是双指针算法，谁小选谁并往后移。可用归并排序求逆序对数量：当j后移时，说明j比第一个数组中的len - i +1个数都要小，因此逆序对就要加上len - i + 1。三、二分核心思想是分治，可将暴力遍历（O n）的做法优化到log n，注意二分不仅用在有序

2022-03-13 16:46:29 229

原创数据挖掘学习笔记10-进化计算

目的：1.优化（主要目的）：由于现实优化问题的规模都非常巨大，而计算机的算力无法超过10^50次方（由质能方程/普朗克常量得到），所以无法采用蛮力来得到解析解，只能通过其他方式对参数进行优化2.模拟自然界进化并行搜索：解决掉入局部最优点问题选择、杂交、变异广度搜索vs精确搜索...

2022-02-19 17:53:45 605

原创数据挖掘学习笔记9-集成算法

目的：1.提高单个模型的准确性2.减少选到较弱的模型的可能用不同的参数、数据集、特征集训练出不同的分类器，每一个分类器很弱，再用某种方式合并。bagging（bootstrap aggregation）：对样本再进行采样，用随机采样得到的数据训练分类器（并行），对任意输入，将所有分类器的结果进行投票（所有分类器权重相同），少数服从多数随机森林（RF）算法效果通常不错stacking：在bagging的基础上，将所有分类器的结果作为输入，再训练一个分类器，相当于训练基础分类器的权重boosti

2022-02-16 16:51:01 559

原创数据挖掘学习笔记8-推荐算法

一、基于内容的推荐（根据商品内容进行推荐）二、协同推荐（根据用户的好友评价进行推荐）tf-idf：tf——term frequency词频频率idf——inverse document frequency 在其他文档中出现的频率三、向量空间模型将文档转换为向量，两篇文档的相似度就可以用向量的夹角余弦表示（1的时候相似度最大，0的时候相似度最小）难点：同义词、多义词难以识别解决方法：做矩阵分解，类似pca，将原本的空间压缩（保留特征值大的几项），去掉冗余信息、噪点。LSA：四、pa

2022-02-14 15:19:06 748

原创数据挖掘学习笔记7-关联规则

关联规则即P→Q且P∩Q≠∅（P发生则Q发生）支持度：support（p→q）=（p∩q）/n置信度：confidence（p→q）=（p∩q）/p（条件概率）支持度大于一定值（δ)的项集成为频繁的项集置信度大于一定值（φ）的关联规则成为强关联规则大图像（the big picture）：第一步，找出所有频繁项集第二步，根据项集的所有非空子集，找出所有关联规则误区：1.一个规则很强不代表这个规则有意义（条件概率可能比先验概率更低）2.两个商品出现概率差异较大时，规则可能也没有意义3.条

2022-02-12 18:22:08 1067

原创数据挖掘学习笔记6-聚类

一、分割模式1.K-Means为将数据分为k个簇，随机生成K个点，用这k个点将空间划分为k个区域，再将k个点移至各自区域的中心点，以此迭代，直至中心点不再变化。特点：1.简单，收敛快，一般只需迭代5次左右即可收敛（复杂度为O（tkn））2.仅适用于数据簇相隔较远，类球形数据簇3.容易掉入局部最优解，受初始值的影响较大，需不断尝试不同初始值4.k值比较难确定5.对噪点敏感（平均值）2.Sequential Leader Clustering用于处理数据流，每个数据只处理一次，不具体确定分为

2022-02-11 15:17:22 648

原创数据挖掘学习笔记5-支持向量机SVM

支持向量机主要原理是在分类器可以将两类样本分开的基础上，通过最大化两类样本之间的间隔来选取分类器。距离算法如下对于线性有重叠的样本，可采用软间隔，即放宽y（wx+b）≥1的条件，增加一个宽限值，使一些重叠样本也能被分类器分开。对于线性不可分问题，SVM会先将样本输入映射到一个高维特征空间，一般来说维数越高能找到一个线性决策面的几率越大，而SVM精妙地选取了一个高维特征空间，使得高维的內积运算恰好等于低纬的內积运算的平方（或其他），这样既提升了样本的维度，又没有使运算变得特别复杂，这一类方法叫做核方法（

2022-02-08 23:53:58 172

空空如也

空空如也