EmoC001
码龄11年
关注
提问 私信
  • 博客:144,713
    社区:3
    144,716
    总访问量
  • 81
    原创
  • 26,604
    排名
  • 129
    粉丝
  • 0
    铁粉
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:澳大利亚
  • 加入CSDN时间: 2013-12-28
博客简介:

EmoC的博客

博客描述:
只是我的个人笔记,仅作参考
查看详细资料
  • 原力等级
    成就
    当前等级
    4
    当前总分
    531
    当月
    3
个人成就
  • 获得147次点赞
  • 内容获得31次评论
  • 获得186次收藏
  • 代码片获得605次分享
创作历程
  • 15篇
    2024年
  • 12篇
    2023年
  • 9篇
    2022年
  • 11篇
    2021年
  • 2篇
    2019年
  • 10篇
    2018年
  • 8篇
    2017年
  • 15篇
    2016年
成就勋章
TA的专栏
  • 鼠鼠的AI笔记
    付费
    35篇
  • leetcode
  • RegularNormalFuker
  • 生物分析
    2篇
  • Android
    7篇
  • C++
  • Algorithm
    11篇
  • Web Developer
    5篇
  • Deep Learning
    12篇
  • General
    12篇
  • Linux/Unix
    2篇
兴趣领域 设置
  • 人工智能
    opencv计算机视觉
  • 操作系统
    harmonyos
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

181人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Frequency-aware Feature Fusion for Dense Image Prediction

nc 设置成啥都行,反正后面训练时会不一样。这里是根据已有的conf file修改的。
原创
发布博客 2024.10.09 ·
290 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

Label me json xml 互转

发布资源 2024.09.13 ·
zip

No Bells, Just Whistles

之前看的以为SoccerNet是作者用到的网络名称,原来是data。
原创
发布博客 2024.07.23 ·
69 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

自己训练 PaddleOCR PP_OCRv4

所以,如果你的数据像我的一样的话,100%确定是水平的框,不是斜着的,那么请放心大胆把这两行注释了,你会发现数据导出的一片满意~尽管在模型训练里添加了旋转的数据增强,但是旋转过大的数据直接增加模型训练难度,而且加入后对原本识别好的有所下降, 所以还是看时间,如果时间够多,增加epochs,时间少,就不要给模型加大训练难度了。这时,你的terminal会有路径变化,为了以防万一,可以ls一下,看看当前的路径(默认是训练的文件夹)有没有你需要的。检查了默认的数据增强,按照官方建议,我要把概率提高到0.6。
原创
发布博客 2024.07.04 ·
613 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

YOLOv10: Real-Time End-to-End Object Detection

两个值的差距我之前要是不知道具体的值,会想用MSE,不要太简单和直接。Ok,作者根据数据的类型
原创
发布博客 2024.06.24 ·
126 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

multiple object tracking

最近正在work on 一些运动的项目,自己比较心仪和好奇这篇论文,希望有些技术能够借鉴到实际运用里。
原创
发布博客 2024.06.21 ·
77 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

PG video llava

transformers[torch] 連帶解決 accelerate 的bug 報錯。
原创
发布博客 2024.04.18 ·
301 阅读 ·
2 点赞 ·
0 评论 ·
1 收藏

Vid2seq

光训练projection的路子,划算是划算,但是效果不好,比如video-llama, PG video llava…对于一段视频,time_input_token 为 (n, 2), text_input_token 为 (n,根据tokenize得到的长度),n为切分后的片段。仔细观察结构,不管是视频画面还是语音内容,都经过了两个步骤的encoders。例子:(PS:是吧,就比那种光projection的,描述上要更贴合实际,而不是轻飘飘的说个摸棱两可的话)模型输入有分视频画面和 拼好后的语音。
原创
发布博客 2024.04.07 ·
333 阅读 ·
2 点赞 ·
0 评论 ·
3 收藏

TransNet V2 pytorch 版本的推理 视频镜头边界检测

发布资源 2024.04.01 ·
zip

shotdetect-scenedetect-lgss

发布资源 2024.03.27 ·
whl

影视类视频片段分割

现在用上面的代码已经安装不了了,但是!
原创
发布博客 2024.03.27 ·
351 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Face recognition

需要注意的是,以上结论是建立在向量的范数等于1的前提下的。如果向量没有进行归一化,或者归一化后的范数不等于1,那么内积和余弦相似度的结果就会有所不同。总之,当人脸特征向量的范数等于1时,向量相乘得到的内积与余弦相似度是等效的。这是因为对于单位向量,内积的结果等于两个向量夹角的余弦值,与余弦相似度的定义相同。如果人脸特征向量的范数(Norm)等于1,那么向量相乘得到的内积(Inner Product)与余弦相似度(Cosine Similarity)是等效的。
原创
发布博客 2024.03.25 ·
96 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

AnimateDiff

这样的一个motion module “insert”的套路 就很LORA有个宏伟的目标,一统各种domain,而且也实现了。也就是说,一个module可以被用在任何主题场景。
原创
发布博客 2024.03.12 ·
118 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Decision Transformer

emmm, 这里的Transformer 就和最近接触到的whisper一样,比起传统Transformer,自己还设计了针对特殊情况的tokens。比如whisper里对SOT,起始时间,语言种类等都指定了特殊tokens去做Decoder的输入和输出。DT这里的作为输入的Tokens由RL里喜闻乐见的历史数据:State,Action,Reward组成。输出只是简单的Actions(历史+即将需要的)
原创
发布博客 2024.02.29 ·
233 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

LLM Note 1

比如对一短视频做理解,他会重复输出“他穿着黑色衣服”,直觉认为可能是对视频做embbeding 时,抽到的帧都差不多,所以导致重复,基本上如果视频有8帧,那么类似的语句就会重复个7,8次。Token 确实比较影响model的效果,因此,怎么输出有效且准确的token,比较重要。Router 主要是将 Attention的输出,进行分配,Attention输出和FFN之间,不是全链接的关系。如果Token的数量在3-4左右,那么可以加速至少2倍,如果Token 数量在3~7,那么可以有更快的速度。
原创
发布博客 2024.02.20 ·
675 阅读 ·
25 点赞 ·
0 评论 ·
9 收藏

InstantID

之前使用LORA的方式去训练专门的人物模型,靠,以为是最赞的方式了,但是后来发现还有更赞的,其实faceswap 就够赞的了,而且比SD更早的出现。
原创
发布博客 2024.02.18 ·
500 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

Snake Conv

我的问题比较tricky,因为数据量不平衡和数据少(就是力求不平衡和数据少),需要找到一个不需要在意数据量的方法。后续我会再check一遍snake conv的论文,顺便猜测or理解一下,为啥在我的问题上,它效果不太行~ (除了数据量之外)除此之外还需要把weight转换成tensorRT, 飞飞视频的代码里有几个地方需要改一下,就能顺利输出。下面的zero, max_y, max_x 需要确保都是在torch cuda上的量。然后我有尝试更改了能改的层,随机的都尝试了一下,最后都没有原始的c2f效果好。
原创
发布博客 2024.02.01 ·
299 阅读 ·
10 点赞 ·
0 评论 ·
1 收藏

Towards Robust Blind Face Restoration with Codebook Lookup Transformer

这个projec相对codeformer已经是老一些的了,CodeFormer paper说自己的效果比这个更好。有看了这个视频,它借用了R-ESRGAN 4x 和 GFPGAN 50%,既保留了一些人物特征,又有了更好的效果。
原创
发布博客 2024.01.18 ·
1052 阅读 ·
26 点赞 ·
0 评论 ·
21 收藏

Whisper

Whisper 代码详解
原创
发布博客 2023.11.30 ·
1721 阅读 ·
18 点赞 ·
0 评论 ·
13 收藏

openCV的CUDA GPU 版本安装 (Ubuntu windows 通用)

例子:/media/xxx/cozynest/anaconda3/envs/detection/lib/python3.9/site-packages/cv2/python-3.10。这里有可能会出现configure的文件找不到的错误,可以直接copy paste Python 版本的文件,根据缺失文件的名字添加。这样放的原因是我Ubuntu的Home容量不够多,导致我需要把这些东西放在另一个盘上,其次是这样安装比较干净。以下是Python3相关会填入的内容。2:下载后的两个包裹会放在以下结构。
原创
发布博客 2023.10.22 ·
1461 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏
加载更多