无妄无望-CSDN博客

原创 OpenCV学习(3.2) 图像上的算术运算

模运算是一种取余数的运算，当相加的结果超出了数据类型的表示范围时，会将结果取余数。：在 OpenCV 中，当进行图像加法操作时，如果相加的结果超出了图像像素值的表示范围（通常为 0 到 255），则会进行饱和运算。也就是说，如果相加的结果超出了像素值的表示范围，那么结果将被截断为最大值或最小值，以确保结果在合法范围内。异或的加密使用，首先执行一次异或运算得到一个结果，再对这个结果执行第二次异或运算，则还原成最初的值，利用这个特点可以实现对图像内容的加密和解密。在这里，γ𝛾 被视为零。

2024-05-23 11:06:50 411

原创 OpenCV学习(3.1) 图像基本操作

对于单个像素访问，Numpy数组方法array.item()和array.itemset())被认为更好，但是它们始终返回标量。如果要访问所有B，G，R值，则需要分别调用所有的array.item()。有时你需要分别处理图像的B，G，R通道。前者表示某一个点的像素值，后者表示该点在蓝色通道的值，0为蓝色通道，1为绿色通道，2为红色通道。如果图像是灰度的，则返回的元组仅包含行数和列数，因此这是检查加载的图像是灰度还是彩色的好方法。图像属性包括行数，列数和通道数，图像数据类型，像素数等。# 访问 RED 值。

2024-05-22 10:32:07 426

原创 OpenCV学习(2.1) 初识图像

输出的image0没有打印出来，太长了，不过可以从shape中看到是（861，697，3），代表的是长和宽以及通道数；image1是指定了长的位置，显示的是长为序列【0】时宽以及三个通道上的数值，对应的形状就是（697，3）；image2就是选定了长和宽的位置，显示的是在该位置上的三个通道的数值，对应形状就是（3，）；灰度化的目的是降低图像的复杂度，减少处理的计算量，同时保留图像的主要特征和结构。举个例子，通常来说的分辨率，1080P，720P，480P就是指像素的数量，数量越多就越清晰。

2024-05-22 00:30:13 638

原创 OpenCV学习（一）银行卡号识别

通常情况下，银行卡号码的像素是有别于它周围的，使用灰度化和自适应阈值化后可以明显的观察到银行卡号和其他图像的，之后通过形态学变化来确定银行卡位置的形状，然后以银行卡号特有的长宽比例从银行卡上筛选出号码区域。具体来说，先通过图像预处理将图像中的银行卡号分割出来，再与提供的模板进行对比，从而完成银行卡号的识别。这些形态学变换操作通常用于图像的预处理和分析，能够改善图像的质量、增强图像的特征，并有助于后续的图像处理任务。顶帽变换是原始图像与开运算结果之间的差异，它可以用于提取图像中的小的亮区域。

2024-05-10 10:18:48 1260 1

原创爬虫学习（4）每日一笑

点关注，不迷路图片皆源自网络，侵删公众号（可投稿）：皮城博物馆（或直接搜索zmmryx）<img src="https://img.tgl.qq.com/cover/20240424/8b114dc092fbcdc12c8847fa578933c4_1713888056.png" style="">

2024-05-07 18:34:59 1342

原创爬虫学习（3）豆瓣电影

3.将得到的数据在json校验网站处理一下。需要的数据可以在response中查看。2.将url中的参数写成字典。

2024-05-07 18:19:15 396

原创爬虫学习（2）破解百度翻译

方法来提取JSON格式的数据。这个方法会自动将JSON格式的响应内容转换为Python字典或列表，以便于在代码中进行处理。在百度翻译页面，右键选择“检查“，然后是Network，Fetch,如下图所示。是用于将HTTP响应体解析为JSON格式的方法。通常情况下，当你使用。库发送HTTP请求并得到响应后，可以使用。且返回的数据类型是json。1.找到要爬取的数据类型。

2024-05-06 22:35:45 598 1

原创爬虫学习（1）简易网页采集器

爬取完成后，会将相应的html存放到搜索名+html文件中。如何使用: (reques ts模块的编码流程)将爬虫发出的请求伪装成浏览器发出的请求。将url携带的参数封装到字典中。代码运行会提示输入搜索内容。

2024-05-06 13:50:55 419

原创使用streamlit构建网站

使用Streamlit，您可以通过简单的Python脚本快速构建数据可视化、机器学习模型展示、数据分析工具等应用。这个网站界面形式可以更改，对应的是3网站部分。具体功能是，点击上传按钮或者“Browse files”从电脑本地选择图片上传，经过短暂算法运行，会给出图片对应的情况类型。最近团队有一个人脸识别的项目，想做一个网站界面来演示，同时使用了花生壳进行内网穿透，使得可以在其他设备访问该界面。这个网站地址是本地地址，只能通过本地电脑访问，其他设备无法访问，这里使用花生壳来实现内王穿透。

2024-04-26 17:09:53 335

原创 github上传代码

Github无法创建仓库，Repository name 报错 Couldn‘t check availability。偷一下懒，把链接贴一下，后续再补充。2.如何创建GitHub仓库。3.如何删掉GitHub仓库。

2024-04-16 16:13:08 668

原创 PDF转TXT ChatGPT编程

ChatGPT实现PDF格式转为TXT格式

2024-04-12 18:32:37 590

原创模型训练-保存训练数据

找到一个可运行的代码，可以每个epoch打印训练数据，但是不会保存。因为在改进模型需要这些训练数据进行对比，所以需要将每个epoch的训练数据保存下来，写到一个文件中。

2024-04-11 20:25:15 590

原创人脸情绪识别（1）附代码

通常情况下，等待键盘输入的时间为 1 毫秒。6.使用 cv2.putText 在帧 frame 上绘制预测的情绪类别文字，坐标为 (x+20, y-60)，字体为 cv2.FONT_HERSHEY_SIMPLEX，字体大小为 1，颜色为 (255, 255, 255)（白色），线宽为 2，字体线型为 cv2.LINE_AA。plot_model_history(model_info) 这个函数的作用是绘制模型的训练过程中的历史数据，通常包括训练集和验证集上的损失值和准确率随着训练轮数的变化趋势。

2024-03-28 10:45:53 1662 5

原创语音情感分类（1）简单可运行项目（附代码）

嵌入矩阵是在自然语言处理（NLP）中常用的一种技术，用于将离散的词或字符转换为连续的向量表示。它是一种将高维离散数据映射到低维连续空间的方法。在NLP任务中，我们通常使用词嵌入（word embedding）来表示单词。词嵌入是一种将单词映射到实数向量的技术，它可以捕捉到单词之间的语义和语法关系。嵌入矩阵是用来存储这些词嵌入的矩阵，其中每一行对应一个单词的向量表示。嵌入矩阵的大小通常由两个参数确定：词汇表大小（vocabulary size）和嵌入维度（embedding dimension）。

2024-03-27 16:04:28 791

原创数据集预处理

将数据集图像通过预处理方法调整为统一大小尺寸，以便于后续模型提取特征。

2024-03-22 22:08:27 688

原创图像分类从零开始（1）

尽我所能，总结留给后面的师弟们！

2024-03-22 22:08:05 857

原创从图像中提取特征的过程时，一些常用的用于描述的词语

当涉及到从图像中提取特征的过程时，一些常用的用于描述的词语

2024-03-02 22:00:19 520

原创 vit细粒度图像分类（十）TransFG学习笔记

在这项工作中，我们首先评估了ViT框架在细粒度识别设置中的有效性。然后，由于注意链接的强度可以直观地视为令牌重要性的指标，我们进一步提出了一种新的部件选择模块，该模块可以应用于大多数变压器架构，我们将变压器的所有原始注意权重集成到注意图中，以指导网络有效准确地选择判别图像补丁并计算它们之间的关系。使用对比损失来扩大混淆类的特征表示之间的距离。

2024-02-03 23:57:25 1174 1

原创 vit细粒度图像分类（九）RAMS-Trans学习笔记

具体来说，我们的方法的核心是动态补丁建议模块(DPPM)引导区域放大，以完成多尺度图像补丁的集成。DPPM从全尺寸图像斑块开始，通过在每个尺度上生成的注意力权重的强度作为指标，迭代地扩大区域注意力，从全局到局部生成新的斑块。我们的方法只需要ViT本身的注意力权重，并且可以很容易地进行端到端训练。

2024-02-03 23:56:54 1082

原创 vit细粒度图像分类（八）SIM-Trans学习笔记

我们将图像编码为一系列补丁令牌，构建了一个具有两个良好设计模块的强视觉变压器框架:(i)提出结构信息学习(SIL)模块，利用变压器的自关注权值挖掘对象范围内重要补丁的空间上下文关系，并将其注入模型中导入结构信息;(ii)引入多层次特征增强(MFB)模块，利用多层次特征的互补性和类间的对比学习来增强特征的鲁棒性，实现准确识别。

2024-02-02 00:25:03 1182

原创 vit细粒度图像分类（七）TBNet学习笔记

具体来说，CNN是用来提取表面信息的。利用Transformer来开发抽象的语义亲和关系。引入了FS模块来揭示识别特征。

2024-01-31 18:25:49 1069

原创 vit细粒度图像分类（六）FBSD学习笔记

为了解决这些限制，我们建议定位多个不同的可区分部分，并以明确的方式探索它们之间的关系。在这个过程中，我们引入了两个轻量级模块，它们可以很容易地插入到现有的卷积神经网络中。一方面，我们引入了一个特征增强和抑制模块，该模块增强特征映射中最显著的部分以获得特定于部件的表示，并抑制它以迫使后续网络挖掘其他潜在部件。另一方面，我们引入了一个特征多样化模块，从相关的特定部件表示中学习语义互补信息。

2024-01-30 19:45:28 1017

原创 vit细粒度图像分类（五）TransFC学习笔记

首先，利用外部注意力取代原 Transformer模型中的自注意力，通过捕获样本间相关性提升模型的特征提取能力；其次，引入特征选择模块筛选区分性特征，去除冗余信息，加强特征表示能力；最后，引入融合的多元损失，增强模型归纳偏置和区分不同子类、归并相同子类的能力。

2024-01-29 17:03:56 1158

原创 vit细粒度图像分类（四）BT-Net学习笔记

为了改进在细粒度图像分类过程中类别差异难以提取的问题，本文提出了一种基于 Transformer 双线性网络的细粒度网络分类优化方法(BT-Net)。首先，将输入图像通过不同卷积处理成不同长度的二维向量，然后，构建重复次数不同的编码器，最后，双网络分支将图像表示为来自两个 Transformer 的特征集合，得到更加丰富的互补特征信息，从而提高细粒度分类的精度。

2024-01-28 13:10:34 1014

原创 vit细粒度图像分类（二）SwinFC 学习笔记

在每个阶段的分支通道上嵌入融合外部依赖及跨空间注意力模块，以捕获数据样本之间的潜在相关性，同时捕捉不同空间方向上具有判别力的特征信息，进而强化网络每个阶段的信息表征。进一步地，引入特征融合模块将每个阶段提取的特征进行多尺度融合，促使网络学习更加全面、互补且多样化的特征信息。最后构建特征选择模块来筛选重要且具有辨别力的图像块，以此增大类间差异，减小类内差异，增强模型的判别力。

2024-01-27 12:00:25 1152

原创 vit细粒度图像分类（三）TRS-DeiT 学习笔记

细粒度图像分类任务由于自身存在的细微的类间差别和巨大的类内差别使其极具挑战性，为了更好地学习细粒度图像的潜在特征，该算法将知识蒸馏引入到细粒度图像分类任务中，提出基于知识蒸馏与目标区域选取的细粒度图像分类方法（ＴＲＳ-ＤｅｉＴ），能使其兼具ＣＮＮ模型和Ｔｒａｎｓｆｏｒｍｅｒ模型的各自优点。此外，ＴＲＳ-ＤｅｉＴ的新型目标区域选取模块能够获取最具区分性的区域；为了区分任务中的易混淆类，引入对抗失函数计算不同类别图像间的相似度。

2024-01-27 11:57:46 1246

原创 vit细粒度图像分类（一）CADF学习笔记

本文提出了一种互补注意多样性特征融合网络模型，通过将潜在性特征模块插入到Transformer不同阶段中，可有效挖掘潜在性特征，同时多样性特征交互使得网络能够学习到更丰富的特征。

2024-01-24 21:49:55 1120 2

原创 transformer优化(二)-DETR 学习笔记

DETR 是 Facebook 团队于 2020 年提出的基于 Transformer 的端到端目标检测，没有非极大值抑制 NMS 后处理步骤、没有 anchor 等先验知识和约束，整个由网络实现端到端的目标检测实现，大大简化了目标检测的 pipeline。

2024-01-22 15:45:04 974

原创 transformer优化(一)-UNeXt 学习笔记

它在早期阶段使用卷积，在潜在空间阶段使用 MLP。通过一个标记化的 MLP 块来标记和投影卷积特征，并使用 MLP 对表示进行建模。

2024-01-22 14:21:46 958

原创 Davit 学习笔记（附代码）

Dual Attention Vision Transformers（DaViT）是一种新的Vision Transformer模型，它在全局建模方面引入了双注意力机制。这个模型的创新之处在于从两个正交的角度进行self-attention，分别对空间维度和通道维度进行建模。通过这种方式，DaViT能够更高效地捕捉图像中的全局信息。

2024-01-19 18:22:35 999

原创 T2T VIT 学习笔记（附代码）

T2T-ViT是一种基于Transformer的视觉模型，用于图像分类任务。它通过将图像分割成小的图块，并使用Transformer模型对这些图块进行编码和处理，从而实现对图像的分类。

2024-01-18 17:42:03 1014

原创 Swin Transformer 学习笔记（附代码）

Swin Transformer是一种基于Transformer架构的图像分类模型，通过分块和跨窗口的机制，能够处理大尺寸图像并取得较好的准确性和计算效率

2024-01-12 22:26:10 1631

原创 Deit:知识蒸馏与vit的结合学习笔记（附代码）

DeiT使用知识蒸馏（Knowledge Distillation）的方法进行训练。这意味着它通过从一个大型预训练模型中传递知识来训练，而不是从头开始训练。这有助于在资源受限的情况下实现更好的性能。

2024-01-12 11:10:04 1497 1

原创 VIT代码解析（bubbliiiing版本）

VIT代码解析（bubbliiiing版本）

2024-01-11 12:16:58 1267

原创 MVIT图像分类学习笔记（附代码）

与在整个网络中保持恒定通道容量和分辨率的传统transformer不同，多尺度transformer具有几个通道分辨率“尺度”阶段。从图像分辨率和小通道维度出发，逐级扩展通道容量，同时降低空间分辨率。这在transformer网络内部创建了一个特征激活的多尺度金字塔，有效地将transformer的原理与多尺度特征层次联系起来。

2024-01-10 14:45:52 1335 1

原创 Joint Image Emotion Classification and Distribution Learningvia Deep Convolutional Neural Network

我们通过多任务深度学习框架解决了视觉情感分析的挑战，该框架可以以端到端方式学习模糊情感类别之间的情感表征。其次，我们还将方法扩展到单标签数据集，使用两种策略将主导情绪标签转换为分布，并将标签歧义性纳入学习过程，从而提高了分类性能。

2024-01-10 08:57:43 779

原创 DeepSentiBank: Visual Sentiment Concept Classificationwith Deep Convolutional Neural Networks

DeepSentiBank: Visual Sentiment Concept Classificationwith Deep Convolutional Neural Networks

2024-01-09 17:19:16 1150 1

原创 SentiBank: Large-Scale Ontology and Classifiers forDetecting Sentiment and Emotions in Visual Conte

SentiBank: Large-Scale Ontology and Classifiers forDetecting Sentiment and Emotions in Visual Conte

2024-01-09 11:26:52 930

原创 VIT用于图像分类学习笔记（附代码）

VIT用于图像分类学习笔记（附代码）

2024-01-05 22:44:02 2448

原创 GPT编程（1）八分类图像数据集转换为二分类

GPT编程（1）八分类图像数据集转换为二分类

2023-12-29 14:19:41 798 1

消除大模型幻觉，加速大模型在企业落地

2024-04-13

细粒度图像分类上 Vision Transformer 的发展综述

主要根据模型结构全面综述了基于 ViT 的FGIC 算法,包括特征提取、特征关系构建、特征注意和特征增强四方面内容，对每种算法进行总结，并分析它们的优缺点。

2024-01-07

读取并重写csv文件，重写时每八个数据进行一次换行操作 python

2023-11-07

The Oxford Handbook of Affective Computing

《The Oxford Handbook of Affective Computing》是一本关于情感计算的权威手册，它涵盖了情感计算的各个方面，包括理论、方法、应用等。情感计算是人工智能领域的一个重要分支，它旨在让计算机具备识别、理解、表达和模拟人类情感的能力。这本手册由著名的情感计算专家Rafael A. Calvo、Sidney K. D'Mello、Jonathan Gratch和Arvid Kappas共同编写，收录了来自世界各地的专家学者的文章，是情感计算领域的重要参考资料。

2023-10-25

一篇关于人类对视觉信息感知的文章

人类对视觉信息的感知是一个复杂的过程，它涉及到大脑、眼睛和环境等多个方面。数据可视化是一种将数据转换为图形或图像的方法，以便人们更容易地理解和分析数据。在数据可视化中，人类感知视觉信息的能力是至关重要的。通过使用颜色、形状、大小、位置等视觉元素，数据可视化可以帮助人们更好地理解数据。同时，数据可视化也需要考虑人类视觉系统的局限性，例如颜色盲、空间感知等问题。因此，数据可视化需要结合人类视觉系统的特点来设计和实现。

2023-10-25

一篇关于计算机视觉和人类视觉之间关系的综述性文章

《From Human Attention to Computational Attention: A Multidisciplinary Approach》是一篇关于计算机视觉和人类视觉之间关系的综述性文章。该文章探讨了计算机视觉如何模拟人类视觉，以及如何将人类视觉的特点应用于计算机视觉中。文章提出了一种多学科的方法，将计算机科学、心理学、神经科学和认知科学等领域的知识结合起来，以更好地理解和模拟人类视觉。该文章对于研究计算机视觉和人类视觉之间关系的人员具有重要的参考价值。

2023-10-25

Multi-Label Image Recognition with Graph Convolutional Networks

在我们最初的会议论文中，我们报告了使用GAP进行比较的基线分类结果，因为GAP是ResNet系列中特征聚合的默认选择。在我们的实验中，我们发现用GMP代替GAP可以提高性能，因此在我们的GCN方法中采用了GMP——我们将GMP视为我们方法的一部分。为了澄清，我们重新运行了基线，并在下表中报告了相应的结果。 Method COCO NUS-WIDE VOC2007 Res-101 GAP 77.3 56.9 91.7 Res-101 GMP 81.9 59.7 93.0 Ours 83.0 62.5 94.0

2023-10-18

abstract图像情感数据集

简介：使用了三个数据集:国际情感图像系统(IAPS)；一组来自照片分享网站的艺术照片(调查艺术家有意识地使用颜色和纹理是否能改善分类)；和一组同龄人评分的抽象画，以调查特征和评分对无上下文内容的图片的影响。离散情感八分类：Amusement、Anger、Awe、Contentment、Disgust、Excitement、Fear、Sadness。

2023-10-18

图像情感分类数据集Emotion6

Emotion6是一个情感诱发图像数据集，包含了Paul Ekman的6种基本情绪和中立情绪，共7个情感分布bin，每个bin包含330张图片。每张图片都有VA值对诱发情绪评分的ground truth，同时作者还进行了情感风格迁移，在不改变高层语义的情况下，通过改变源图像的底层特征，从而实现迁移图像情感向目标图像的迁移。EmotionROI是在Emotion6的基础上，添加了情感诱发区域ESM标注（Emotion Stimuli Maps），情感诱发区域不等同于对象区域，也不等同于显著性区域。

2023-10-18

图像情感分析英文论文十篇

01 Multi-level Region-based Convolutional Neural Network for Image 02 Multiscale_Emotion_Representation_Learning_for_Affective_Image_Recognition 03 Weakly_Supervised_Emotion_Intensity_Prediction_for_Recognition_of_Emotions_in_Imag 04 Multi-scale_blocks_based_image_emotion_classification_using_multiple_instance_learninges 05 Learning multi-level representations for affective image recognition 06 Joint Image Emotion Classification and Distribution Learning 07 Adaptive_Deep_Metric_Learning_for_Affe

2023-10-18

损失函数 LDAM (详细代码，亲测可运行)

论文：Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss](https://arxiv.org/pdf/1906.07413.pdf) in PyTorch. Abstract 当训练数据集存在严重的类不平衡时，深度学习算法的表现可能会很差，但测试标准需要对不太频繁的类进行良好的泛化。我们设计了两种新的方法来提高这种情况下的性能。首先，我们提出了一个理论上的标签分布感知边际损失(LDAM)，其动机是最小化基于边际的泛化边界。在训练过程中，这种损失取代了标准的交叉熵目标，并可以应用于先前的训练策略，如重加权或重采样类不平衡。其次，我们提出了一个简单而有效的训练计划，将重新加权推迟到初始阶段之后，允许模型学习初始表示，同时避免了与重新加权或重新抽样相关的一些复杂性。我们在几个基准视觉任务上测试了我们的方法，包括真实世界的不平衡数据集iNaturalist 2018。我们的实验表明，这两种方法中的任何一种都可以比现有的技术有所改进，它们的结合甚至可以获得更好的性能增益。 ——————————————

2023-10-18

深度学习 + Resnet + 详解

import torch import torch.nn as nn # --------------------------------# # 从torch官方可以下载resnet50的权重 # --------------------------------# model_urls = { 'resnet50': 'https://download.pytorch.org/models/resnet50-19c8e357.pth', } # -----------------------------------------------# # 此处为定义3*3的卷积，即为指此次卷积的卷积核的大小为3*3 # -----------------------------------------------# def conv3x3(in_planes, out_planes, stride=1, groups=1, dilation=1): return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=s

2023-10-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

消除大模型幻觉，加速大模型在企业落地

细粒度图像分类上 Vision Transformer 的发展综述

读取并重写csv文件，重写时每八个数据进行一次换行操作 python

The Oxford Handbook of Affective Computing

一篇关于人类对视觉信息感知的文章

一篇关于计算机视觉和人类视觉之间关系的综述性文章

Multi-Label Image Recognition with Graph Convolutional Networks

abstract图像情感数据集

图像情感分类数据集Emotion6

图像情感分析 英文论文十篇

损失函数 LDAM (详细代码，亲测可运行)

深度学习 + Resnet + 详解

空空如也

图像情感分析英文论文十篇