自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

原创 视频拍摄知识+AIGC数据预处理

(就拿拍摄人物来说,远景就是把整个人和环境拍摄在画面里面,常用来展示事件发生的时间、环境、规模和气氛。往往是用来塑造一个大的场景。全景就是比远景更近一点,把人物的身体整个展示在画面里面,用来表现人物的全身动作,或者是人物之间的关系。中景就是指拍摄人物膝盖至头顶的部分,这样不仅能够展示人物的表情,而且还可以显示人物的形体动作。近景也就是拍摄人物胸部以上至头部的部位,非常有利于表现人物的面部或者是其他部门的表情、神态。包括眼角的细微动作。

2024-04-15 15:54:49 796 1

原创 python 字符串写入 csv 被拆分问题

在使用csv的writerow或者writerows方法时,直接写入字符串会导致字符串被分割成一个字符占一个单元格的问题。

2024-04-03 16:38:21 200

原创 视频主题分类

电影是包含任何与电影相关的内容的 Youtube 视频类别。他们制作其他与电影相关的视频,如“电影理论家”和“ScreenRant”,他们利用围绕流行电影和电视节目的炒作来制作令人敬畏的内容。恶作剧视频曾经是 YouTube 喜剧的主要内容,但多年来,在恶作剧 YouTube 用户违反法律、伤害自己甚至伤害他人的内容发生多起事件后,恶作剧视频逐渐从喜剧类别中消失了。喜剧在 YouTube 上是一个相当大的类别,因为大多数 YouTube 用户都试图让他们的内容变得有趣,因为它让人们参与其中并使内容更有趣。

2024-03-29 14:42:04 720

原创 linux 常用命令行操作记录(非科班救急)

使用正则表达式筛选出文件,过滤掉目录或链接等其他类型的文件。:列出目录下的所有文件和文件夹的详细信息。:统计过滤后的文件行数,即文件个数。

2024-03-26 18:40:46 278

原创 多模态大模型LLM、MLLM性能评估方法

虽然 LMM 在许多场景中以开放式方式和自由格式文本表现出了出色的视觉识别和推理能力,但 LMM 的评估正成为一个紧迫且具有挑战性的问题。已经开发了几个相关的基准来评估 LMM 的各个方面,包括 OCR、hallucination (POPE) 和 HaELM 等特定能力)和 adversarial robustness),到综合评估,如 LAMM、LVLM-eHub。我们在下表中总结了 LMM 评估基准。其中,LLaVA-Bench是首次尝试专门针对LMM设计开放世界视觉聊天基准。

2024-03-22 10:54:18 306

原创 表情识别数据集

CREMA-D 是一个情感多模态演员数据集,包含来自 91 位演员的 7,442 个原始剪辑。这些片段来自 48 名年龄在 20 至 74 岁之间的男性演员和 43 名女性演员,他们来自不同的种族和民族(非裔美国人、亚洲人、高加索人、西班牙裔和未指明的人)。演员们从12句话中选出。这些句子使用六种不同的情绪(愤怒、厌恶、恐惧、快乐、中性和悲伤)和四种不同的情绪水平(低、中、高和未指定)中的一种来呈现。参与者根据组合的视听呈现、视频和音频对情绪和情绪水平进行评分。

2024-03-20 14:24:28 428

原创 coca、blip、blip2在image caption中的实验效果对比

【代码】coca、blip、blip2在image caption中的实验效果对比。

2024-03-18 15:20:31 408

原创 huggingface-cli下载数据(含国内镜像源方法)

huggingface-cli 是 Hugging Face 官方提供的命令行工具,自带完善的下载功能。

2024-03-14 14:31:09 5765 1

原创 HD_VG_130M数据集预处理

是文生视频常用数据集,其视频来源于油管,可通过该下载官方文件,如下所示,其中metafiles中包含20个json文件,请先将其全部下载到本地,假设保存地址为。json文件格式如下所示,包含视频对应的网址和切片的时间段信息,以及对应切片的caption。

2024-03-13 19:35:52 549

原创 leetcode72. 编辑距离

位置需要最少步数,所以,

2024-03-09 00:08:45 433

原创 leetcode200. 岛屿数量

遍历每一个网格,若网格为1,岛屿数量+1,利用一个深度优先搜索函数将岛屿置零,注意判断数组边界。

2024-03-08 23:42:16 421

原创 二叉树的前、中、后序遍历

这里前中后序遍历,其实指的就是中间节点的遍历顺序。

2024-03-08 22:58:26 369

原创 完全背包问题:排列问题

leetcode链接

2024-02-23 23:37:03 385

原创 完全背包问题:组合问题

leetcode链接

2024-02-23 23:35:23 376

原创 01背包问题:组合问题

01背包问题:组合问题

2024-02-23 23:31:21 643

原创 完全背包问题:一、二维数组

代码随想录讲解链接

2024-02-23 23:28:58 346

原创 Stable Diffusion算法、结构全流程概述

Stable Diffusion能力强、功能多、插件广,本文拟概述SD的全流程,方便梳理算法各结构的关系。

2024-02-22 18:51:57 890

原创 01背包问题:一、二维数组

动态规划,01背包问题,使用一维数组实现。

2024-02-21 22:34:23 354

原创 leetcode135. 分发糖果

【代码】leetcode135. 分发糖果。

2024-02-16 14:41:16 405

原创 leetcode206. 反转链表

【代码】leetcode206. 反转链表。

2024-02-15 00:31:09 442

原创 leetcode142. 环形链表 II

leetcode142. 环形链表 II题目思路集合法将节点存入set,若重复出现则说明是环快慢指针法分别定义 fast 和 slow 指针,从头结点出发,fast指针每次移动两个节点,slow指针每次移动一个节点,如果 fast 和 slow指针在途中相遇 ,说明这个链表有环。初次相遇后,将slow设为头结点,slow和fast这两个指针每次只走一个节点, 当这两个指针相遇的时候就是环形入口的节点。代码集合法class Solution: def detectCycl

2024-02-14 22:12:28 501

原创 leetcode面试题 02.07. 链表相交

【代码】leetcode面试题 02.07. 链表相交。

2024-02-14 19:04:01 486

原创 leetcode19. 删除链表的倒数第 N 个结点

【代码】leetcode19. 删除链表的倒数第 N 个结点。

2024-02-14 15:46:43 473

原创 leetcode24. 两两交换链表中的节点

【代码】leetcode24. 两两交换链表中的节点。

2024-02-14 10:09:36 432

原创 leetcode707. 设计链表

2.class中添加一个链表长度的属性,便于后续操作。1.使用虚头节点,模拟class的初始化。

2024-02-08 00:42:25 451

原创 yt-dlp快速上手

之前用xx下载视频经常遇到网络报错,于是使用这个新的yt下载工具。

2024-02-07 16:53:52 843

原创 leetcode203. 移除链表元素

可以设置一个虚拟头结点,这样原链表的所有节点就都可以按照统一的方式进行移除。

2024-02-06 23:26:45 460

原创 leetcode59. 螺旋矩阵 II

螺旋数组,一次螺旋4个方向(上行从左到右、右列从上到下、下行从右到左、左列从下到上),共执行(n//2)次螺旋。且对于n为奇数时,额外填充中心点nums[mid][mid] = n。每一次螺旋圈下来,我们要画每四条边,这四条边怎么画,每画一条边都要坚持一致的左闭右开的原则,这样这一圈才能按照统一的规则画下来。且每次螺旋后,需向内偏移一个单位。

2024-01-30 23:50:40 425

原创 opencv-python计算视频光流

具体:光流是空间运动物体在观察成像平面上的像素运动的瞬时速度,是利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系,从而计算出相邻帧之间物体的运动信息的一种方法。一般而言,光流是由于场景中前景目标本身的移动、相机的运动,或者两者的共同运动所产生的。

2024-01-30 10:08:27 645

原创 opencv-python 视频读取: VideoCapture.get()参数详解

整理了get()函数各个参数的参数值和说明,方便查阅。

2024-01-29 15:45:17 919

原创 win10+elasticsearch8.12 安装教程

Elasticsearch是一种搜索引擎,本地安装完成之后,可使用其他编程语言(例如python)与elasticsearch建立连接,然后使用python脚本搜索elasticsearch中的数据。

2024-01-25 16:04:55 1603 1

原创 linux conda 配置 stable video diffusion

cuda和cudnn请参考其他链接配置,使用 conda 或者 pip 安装 pytorch。使用conda 安装,会自动配置cuda版本。放到 checkpoints/ 文件夹下。

2024-01-23 17:13:51 523

原创 leetcode209. 长度最小的子数组

在暴力解法中,是一个for循环滑动窗口的起始位置,一个for循环为滑动窗口的终止位置,用两个for循环完成了一个不断搜索区间的过程。所谓滑动窗口,就是不断的调节子序列的起始位置和终止位置,从而得出我们要想的结果。滑动窗口则使用一个for循环来完成这个操作。

2024-01-18 23:26:26 304

原创 leetcode977. 有序数组的平方

数组其实是有序的, 只不过负数平方之后可能成为最大数了。那么数组平方的最大值就在数组的两端,不是最左边就是最右边,不可能是中间。此时可以考虑双指针法了,i指向起始位置,j指向终止位置。最直观暴力的想法,莫过于每个数平方之后,排个序。

2024-01-18 00:29:13 322

原创 leetcode27. 移除元素

这个题目暴力的解法就是两层for循环,一个for循环遍历数组元素 ,第二个for循环更新数组。双指针法(快慢指针法): 通过一个快指针和慢指针在一个for循环下完成两个for循环的工作。

2024-01-17 22:55:48 363

原创 leetcode704. 二分查找

使用二分查找法降低时间复杂度,但要求数组有序且无重复数。

2024-01-17 21:50:21 290

原创 Transformers库中owlvit2模型的注意事项

下面以owlv2-base-patch16模型为例,上文中的第三种应用为例进行伪码讲解。

2024-01-11 17:08:08 1093

原创 使用huggingface transformers owlvit进行one shot目标检测时置信度score太高的问题

使用 huggingface 的 transformers 库中的 owlvit 模型进行 one shot 目标检测时,引导图与待检测图差距巨大,但最终置信度score依旧太高。

2024-01-09 17:53:09 450

原创 linux服务器端配置huggingface模型

linux服务器(ubuntu)不能访问huggingface官网,且与本地个人电脑是局域网。从huggingface下载模型时,先用个人电脑下载(可访问huggingface官网),然后上传到服务器对应位置。

2024-01-05 19:16:41 830

原创 Stable-diffusion安装时Can‘t load tokenizer for ‘openai/clip-vit-large-patch14‘2种解决方案

在安装Stable-diffusion WebuUI时,运行python launch.py出现Can‘t load tokenizer for ‘openai/clip-vit-large-patch14问题,这是因为安装过程中需要去huggingface网站下载一些文件,但该网站被墙,所以报错。下面给出两种具体解决方案。

2024-01-05 14:09:27 4366 1

Stable-diffusion安装clip-vit-large-patch14

Stable-diffusion安装clip-vit-large-patch14

2024-01-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除