flyfor2013-CSDN博客

原创 Google C++项目编程风格指南 (中文版) 分享

之前点击上方“AI算法与图像处理”，选择加"星标"或“置顶”重磅干货，第一时间送达导读这是一份来自Google开源的文档c++部分总共有 67 页，本文分享的内容，是基...

2020-12-29 17:00:00 1446

翻译 Keras vs. tf.keras: 在TensorFlow 2.0中有什么区别?

在本教程中，您将发现Keras和tf.keras之间的区别，包括TensorFlow 2.0中的新增功能。Keras vs. tf.keras: 在TensorFlow 2.0中有什么区别?https://www.pyimagesearch.com/2019/10/21/keras-vs-tf-keras-whats-the-difference-in-tensorflow-2-0/在...

2019-10-29 14:09:41 2310

原创 Hexo Yelee主题侧边栏社交图标logo中的github图标不显示，成功搞定

最近自己用hexo+github搭建了一个个人网站：https://dwctod.github.io/但是出现了一些问题，比如这里github图标无法显示了按照网友的提示：https://blog.csdn.net/youshaoduo/article/details/84824828他的思路：（1）从这里下载图片，并将图片存放在YourBolgPath/themes/yelee/sour...

2019-09-27 15:14:03 1114

翻译图像处理，计算机视觉和人工智能之间的差异

图像处理，计算机视觉和人工智能之间的差异https://medium.com/@pallawi.ds/difference-between-image-processing-computer-vision-and-artificial-intelligence-af670d65055d作者：Pallawi图像处理和计算机视觉是超级兴奋的研究和研究领域。随着人工智能的进步，这两个领域都在不断发...

2019-09-17 21:58:45 2457

原创 python中英文书籍汇总，总有一本是你想要的

书籍是人类进步的阶梯对于程序员也是如此，需要完整的学好一本书，而不是光靠遇到问题，再去查，这样子往往更加费时（毫无依据，仅凭个人感觉）推荐一些python的书籍，包括数据分析，数据可视化，算法结构，opencv，有需要的自取哈...

2019-01-05 11:41:01 2172

原创最新多模态思维链（Multimodal Chain-of-Thought）的全面综述

的能力，尤其在多模态大型语言模型（Multimodal Large Language Models，MLLMs）中受到关注。该项目通过全面梳理 MCoT 推理领域的研究进展，为研究人员提供了一个系统的框架来理解和探索该领域，有助于推动多模态推理技术的发展，进一步拓展其在各个领域的应用。，阐述了该领域的基础概念和定义，包括详细的分类法和对不同应用中现有方法的分析，还提供了对当前挑战和未来研究方向的见解，以促进多模态推理的发展。：项目中还包含了多模态任务的示意图，帮助理解 MCoT 推理在不同任务中的应用。

2025-03-19 21:33:42 374

原创 AI设计玩疯了！任意元素融合生成新概念设计图！

在艺术创作和设计领域，很多时候，一个独特的灵感来源于某个视觉元素的碎片，比如一个特别的翅膀结构、一种独特的发型，它们就像是散落的拼图碎片，等待着创作者将它们拼凑成一个完整而富有创意的概念。而 IP+ 空间则在保留语义操作能力的同时，显著提升了图像重建的质量，能够更有效地作为视觉概念的表示空间。这种方法的核心在于其独特的 IP-Prior 模型，它基于 IP-Adapter+ 的内部表示空间构建，通过轻量级的流匹配模型，根据特定领域的先验知识合成连贯的构图，实现多样化且具有上下文感知能力的生成效果。

2025-03-17 22:08:27 349

原创 DocLayout-YOLO |上海AI Lab最新兼具速度精度的文档布局分析模型

上海AI Lab 提出基于YOLO-v10的 DocLayout-YOLO，代码已开源！1、DocLayout-YOLODocLayout-YOLO是一个文档布局分析工具，通过多样化的合成数据和全局到局部的自适应感知增强文档布局分析，提升处理速度和准确性。具体来说，文档布局分析要实现的效果是，定位文档元素并识别所属的类别。如下所示：可以使用文档分析工具，来实现确定试卷中的标题/图标/纯文本等等真实...

2024-10-27 20:49:59 1150 1

原创 Animate-X，拟人角色跳舞！游戏制作新革命！

大家好，今天和大家分享一篇最新的工作1、Animate-X阿里巴巴新出的通用角色动画生成项目：Animate-X 能让静态角色图像转成动态视频，不仅支持对人类角色，还适用于拟人角色。可以应用到各种游戏和娱乐领域。输入一张参考图像，一个动作参考视频，生成动画视频主要特点：通用应用：与主要关注人物的传统动画方法不同，Animate-X 旨在与各种角色类型无缝协作，包括拟人化人物，从而扩大了其在各个行...

2024-10-22 23:04:32 681

原创效果逼真！视频编辑新玩法！角色、动作、背景都能控制！

大家好，今天和大家分享一篇最新的工作 1、MIMOMIMO 可控视频合成的通用模型，可以调整视频的主角，合成动作以及场景来控制合成的视频。MIMO，不仅可以合成具有由用户输入提供的可控属性（即角色、运动和场景）的角色视频，而且还可以同时实现对任意角色的高级可扩展性、通用性到新颖性3D 动作以及统一框架中交互式现实世界场景的适用性。核心思想：1）允许用户提供多个输入（例如，角色的单个图像、运动的...

2024-10-13 20:10:25 398

原创国产开源最强？Qwen2-VL强势发布，效果实测！

大家好，趁着周末赶紧看下本周最新发布的多模态大语言模型Qwen2-VL。因为Qwen2比Qwen提升很大，而且Qwen2-VL还将开源大参数量的模型Qwen2比Qwen强在哪里：https://www.zhihu.com/question/658307301Qwen2系列模型大幅提升了代码、数学、推理、指令遵循、多语言理解等能力，性能不仅超过美国最强的开源模型 Llama3-70B，也超过文心 4...

2024-09-01 17:56:57 2612 1

原创腾讯开源VITA！全方位对标GPT4o，全能多模态交互大模型！

腾讯优图实验室联合南京大学、厦门大学和中国科学院自动化研究所推出了VITA，一个开源的多模态大型语言模型。该模型擅长同时处理和分析视频、图像、文本和音频模态，并通过非唤醒交互和音频中断交互实现先进的多模态交互体验。作者表示：所有训练代码、部署代码和模型权重即将发布！已经提交了开源代码，但还在进行内部审查。 VITA3个月前，OpenAI发布最新的大模型GPT4-o，支持听、看、说，全程丝滑的想在和...

2024-08-12 23:33:34 1253

原创 Stable-Hair 全新发型迁移算法！轻松生成中分！

大家好，今天和大家分享几篇最新的工作 1、Stable-HairStable-Hair是一个发型迁移算法，甚至在真实的环境效果也能保证较好的效果。具体来说，输入一张 source 图片（希望变换发型的人脸）和一张 reference image（预期发型的人脸），如下图所示，第一行是目标发型，第一列为sourceimage，按行（从第二行开始）查看生成的效果，除了发型变化外，人脸的特征保留完整...

2024-07-22 22:38:25 1426 2

原创 7k star！斯坦福开源学术研究神器！storm

扫码领取享50优惠！随时可用，先到先得！大家好，今天跟大家分享一个由大语言模型（LLM）加持的知识管理系统，用于研究某个课题并生成带有引文的完整报告。输入研究的主题，并详细说明写这篇文章的目的，等待三分钟左右，storm会自动在网络上检索并解读整理输出总结的报告！！！storm 简介官方介绍:STORM 是一个LLM系统，可以根据互联网搜索从头开始编写类似维基百科的文章。虽然该系统无法生成通常需...

2024-07-18 23:11:47 525

原创超过GPT-4V，国产开源多模态大模型来了！支持视频理解/超高分辨率图片理解/多轮对话...

扫码领取享50优惠！随时可用，先到先得！大家好，开源多模态大模型真的是每天都在疯狂的涌现，今天分享一个国产大模型 InternLM-XComposer-2.5 中文名：浦语·灵笔2.5仅使用 7B LLM 后端就达到了 GPT-4V 级别的能力，甚至从官方的论文测试结果来看，部分benchmark上的指标甚至超过了 GPT-4VInternLM-XComposer-2.5下面介绍一下主要功能：超高...

2024-07-05 23:08:20 1203

原创 3D鸡哥又上开源项目！单图即可生成，在线可玩

大家好，今天和大家分享几篇最新的工作 1、Unique3DUnique3D从单视图图像高效生成高质量3D网格，具有SOTA水平的保真度和强大的通用性。如下图所示 Unique3D 在 30 秒内从单视图野生图像生成高保真且多样化的纹理网格。例如属于一张鸡哥的打球写真照等待一分钟左右的时间：用鼠标拖动生成的结果，可以看到结果，很显然这个模型很可能是小黑子，前面是背带裤转到后面居然不是背带没了从官网的...

2024-07-04 22:44:42 940

原创迄今为止最惊艳的生成视频模型 MotionClone！开源！主体运动和相机运动都能完美克隆！...

大家好，今天和大家分享一篇关于可控视频生成的最新成果 MotionClone给定参考视频，MotionClone 可以将视频所包含的动作克隆到新的场景中，具有出色的 prompt-following（指令遵循）能力，而无需针对特定运动进行微调。prompt-following 更加通俗的解释，就是能够按照你编写的prompt来生成相应的反馈。如下图所示，通过调整主体以及场景相关的prompt，而不...

2024-07-02 23:02:01 822

原创鸡哥又上CV论文！单图生成3D模型，高质量且高效率新模型！

大家好，今天和大家分享几篇最新的工作 1、VividDreamerVividDreamer 是一个兼顾高质量和效率的文本生成3D资产的算法。更加具体来说就是，通过输入一句话，例如下图左上角的图片：输入 “A zoomed out DSLR photo of a corgi wearing a top hat” （戴着高顶礼帽的柯基犬的缩小照片），生成柯基的3D模型。实现思路：VividDreame...

2024-06-25 21:40:28 675

原创中科大和字节AI视频生成CamTrol杀疯了！运动可控，效果惊艳！

大家好，我是阿潘，今年堪称视频生成的爆发的一年，sora 2024年2月15日发布，让全世界都震惊了。openai 有一次成为了行业标杆。从生成的效果来看，比起以往抽象的生成结果，有了巨大的提升。今天和大家分享中科大和字节跳动的工作 CamTrol 。这是一种train-free，可以在大多数预训练的视频扩散模型中即插即用的方案。支持单张图片或文本prompt作为输入生成视频。论文：https:/...

2024-06-20 22:46:38 770

原创算法六年，越做越无聊。。。

大家好，我是阿潘刷到下面一条动态，一位工作 6 年的算法工程师，表示工作越做越无聊，想做一些确定性强的事情，希望转岗到做开发。打工人吐槽下面是原文和一些回帖：首先，这位老铁想做开发的原因是因为做算法工作的不确定性（确实啊，算法的效果是让人焦虑的主要来源。。。），也就是说算法的工作很多时候都包含了大量的不确定性，这让我想起知乎上一个热议的话题：下面是一个知乎高赞的回答：我也是一个干了五年的计算机...

2024-05-19 16:54:11 1284 1

原创 ControlNet作者放大招！IC-Light：控制生成图片光照效果！

ControlNet作者张吕敏近日又开源了一项新的工作：IC-Light （Impose Constant Light），在不改变图片内容的条件下，可以控制生成图片的光照效果。作者发布了两种类型的模型：文本条件重打光模型和背景条件重打光模型。两种类型都将前景图像作为输入。 1、Text-Conditioned Model通过文本条件控制，输入Prompt 并 Lighting Preference...

2024-05-09 22:05:37 910

原创效果炸裂！文生图再升级，支持多对象个性化图片生成！开源！

大家好，今天和大家分享一篇最新的文生图工作，代码已开源标题：Identity Decoupling for Multi-Subject Personalization of Text-to-Image Models单位：KAIST论文：https://arxiv.org/pdf/2404.04243.pdf代码：https://github.com/agwmon/MuDI主页：https://mu...

2024-04-10 17:01:21 1136

原创哈工大&清华提出VideoElevator：大幅提升文生视频质量！

大家好，今天和大家分享哈工大和清华大学最新的成果 VideoElevator，一种无需训练即插即用，可以配合各种文生图（SD）和文生视频（AnimateDiff）使用提升视频生成质量。标题：VideoElevator: Elevating Video Generation Quality with Versatile Text-to-Image Diffusion Models单位：哈工大 &am...

2024-03-12 22:06:31 1226

原创 selenium定位元素报错：‘WebDriver‘ object has no attribute ‘find_element_by_id‘

当然最最推荐的还是去官方查看文档：https://www.selenium.dev/documentation/webdriver/getting_started/first_script/思路：通过对网页的源代码分析（进入www.baidu.com，右键并检查则可看其HTML源代码），定位到搜索框的属性id=“kw”Selenium更新到 4.x版本后，以前的一些常用的代码的语法发生了改变。目标：希望通过 selenium 模拟在 “百度” 上输入关键词搜索。

2024-02-16 22:45:04 981 2

原创 mac安装mongodb和使用教程

这里我使用conda 创建一个python3.9的环境测试是否安装成功brew 安装mongodb在终端中输入下面内容，安装 mongodb创建必须的文件夹路径修改环境变量设置mongodb 配置另外启动一个终端输入此时即可正常使用mongodb了总结安装时需要配置 pymongo 和 mongodb-community使用时需要一个终端启动服务（ sudo mongod --dbpath=/usr/local/var/mongodb --logpath=/usr/local/var

2024-02-16 15:03:30 717

原创白嫖！平替ChatGPT，高效阅读文档，支持pdf上传！

大家好，我是阿潘，现在技术更新的太快了，每天arxiv上面更新的论文太多了看不过来，同时还有一大堆公众号、知识星球、知乎等等，太多需要关注的信息了，力不从心啊。但是又怕漏掉一些有用的信息因此今天跟大家分享两个网站（现在还可以白嫖先用起来）1、高效阅读最新论文的网站，不漏掉最新成果2、高效阅读文档的网站，快速筛选提取有用信息 1、https://papers.cool/ 作者：苏剑林作者的初心:...

2024-01-29 21:19:07 1247

原创两个眼前一亮的工作！已开源，可在线体验！

大家好，我是阿潘，2024 年，新年首个工作日，公司引来组织架构调整，两个工程师和一个产品并入业务线，直面业务大佬的压榨！第一天就搞大事情，希望新的一年，我们都能迎来爆发的一年！顺便聊下最近爆火的一些开源项目。 1、HandRefiner上图：Stable Diffusion（前两行）和 SDXL（最后一行）生成畸形的手（每对左侧），例如手指数量不正确或形状不规则的问题，可以通过 HandRefi...

2024-01-02 22:42:50 800

原创阿里达摩院刚刚开源了AnyDoor！零样本物体编辑！可实现物体移动、物体交换、虚拟试穿等...

大家好，我是阿潘，今天给大家分享一个阿里达摩院开源了 AnyDoor 的代码，不得不说，到年底了有点猛，疯狂的晒工作，感觉像是在冲业绩，这不得多拿好几个月的年终。项目相关的链接整理在下面了：https://damo-vilab.github.io/AnyDoor-Page/https://github.com/damo-vilab/AnyDoorhttps://arxiv.org/abs/2307...

2023-12-17 22:36:13 1974

原创文生图一致性角色生成！谷歌最新文本到图片扩散模型工作

大家好，我是阿潘，今天和大家分享一篇谷歌最新的文生图的工作。主要解决在文生图中无法生成一致性角色的难题！如果有帮助，欢迎大家帮忙转发分享，感谢！推荐微信交流群现已有2000+从业人员交流群，欢迎进群交流学习，微信：nvshenj125B站最新成果demo分享地址：https://space.bilibili.com/288489574顶会工作整理Github repo：https://githu...

2023-11-20 23:30:06 1352

原创（AIGC）FIRST：百万数据集用于文本驱动的服饰合成和设计

整理：AI算法与图像处理欢迎关注公众号 AI算法与图像处理，获取更多干货：推荐微信交流群现已有2000+从业人员交流群，欢迎进群交流学习，微信：nvshenj125B站最新成果demo分享地址：https://space.bilibili.com/288489574顶会工作整理Github repo：https://github.com/DWCTOD/CVPR2023-Papers-with-C...

2023-11-15 16:59:52 716

原创 LCM-LoRA：通用stable diffusion 加速模块！2023.11.13顶会论文速递！

整理：AI算法与图像处理欢迎关注公众号 AI算法与图像处理，获取更多干货：推荐微信交流群现已有2000+从业人员交流群，欢迎进群交流学习，微信：nvshenj125B站最新成果demo分享地址：https://space.bilibili.com/288489574顶会工作整理Github repo：https://github.com/DWCTOD/CVPR2023-Papers-with-C...

2023-11-13 23:05:39 1683

原创真假难辨！AI人像生成再进化！HyperHuman：基于隐式结构扩散的超逼真人像生成...

大家好，今天和大家分享最新的一篇 AI生成相关的工作，本文的重点在于对于人像生成的优化，之前的工作，例如stable diffusion等，对于真人生成效果存在一定的缺陷，基于此为出发点，本文贡献了新的数据集，并提出一个新的隐式结构扩散模型结合姿态图、深度图等，生成更逼真的人像图片。好久没更新原创啦，兄弟们点点赞，以后多多更新，fighting！！！欢迎大家留言，你更想看到的内容，实战？论文？或...

2023-10-20 22:49:04 822

原创 [AI绘画] 即插即用！SDXL+T2I-Adapters 高效可控的生成图片

标题：T2I-Adapter: Learning Adapters to Dig out More Controllable Ability forText-to-Image Diffusion Models论文：https://arxiv.org/pdf/2302.08453.pdf博客：https://huggingface.co/blog/t2i-sdxl-adapters代码：https...

2023-09-16 22:49:12 1566

原创 This application failed to start？

大家好，最近在搞一个定制的图像分割项目，其中需要自己构建数据集。这里我用到了基于paddle开发高效智能的交互式分割标注软件 EISeg(Efficient Interactive Segmentation)。它涵盖了通用、人像、遥感、医疗、视频等不同方向的高质量交互式分割模型。另外，将EISeg获取到的标注应用到PaddleSeg提供的其他分割模型进行训练，便可得到定制化场景的高精度模型，打通分...

2023-07-11 23:05:25 294

原创 Segment Anything又一强大应用！

大家好，我是阿潘，今年太多炸裂的成果涌现，今天和大家分享号称 CV 的GPT-3 时刻的SAM（Segment Anything Model）的一个相关研究成果。SAM简介迄今为止最大的分割数据集，在1100万的图像上有超过10亿个掩码。该模型被设计和训练为可提示的（promt），因此它可以将zero-shot transfer零样本迁移到新的图像分布和任务。promt : 例如，点，框，掩码当模...

2023-07-06 10:00:23 359

原创解决No module named ’torch._six‘问题

参考：https://github.com/microsoft/DeepSpeed/issues/2845。主要原因是因为 torch 升级到2.0之后，这个api不能用了，以下是解决方法。将from torch._six import inf调整为下面。

2023-07-04 10:01:54 22921 2

原创 PerSAM！单图即可定制专属SAM模型！支持微调，甚至可增强DreamBooth

大家好呀，我是阿潘。Meta 的Segment Anything Model 着实火了一把，今天来和大家分享一篇相关的研究成果，论文和代码都已开源：从标题的字面意思应该就是指仅需一个样本即可定制个性化的SAM。PersonalizeSegmentAnythingModelwithOneShothttps://arxiv.org/pdf/2305.03048.pdfhttps:...

2023-05-09 22:32:29 3759

原创 5个python常用的装饰器！

大家好呀，我是阿潘。首先，每个开发人员的目标都是让事情正常进行。慢慢地，我们担心可读性和可扩展性。这是我们第一次开始考虑装饰器的时候。装饰器是为函数提供额外行为的绝佳方式。使用装饰器，你会惊讶地发现可以减少代码重复并提高可读性。以下是我在几乎每个数据密集型项目中使用的五个最常用的方法。1.重试装饰器在数据科学项目和软件开发项目中，有很多我们依赖外部系统的情况。事情并不总是在我们的控制之中。当意外...

2023-03-26 20:47:21 1973

原创 CVPR2023论文速递（2023.3.23）！已接入ChatGPT总结！共26篇！

整理：AI算法与图像处理CVPR2023论文和代码整理：https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo欢迎关注公众号 AI算法与图像处理，获取更多干货：大家好,最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分类,方便不同方向的小伙伴挑选自己感兴趣的论文哈大家好，目前给每天的论文汇总接入chatGPT帮忙总结，目前在...

2023-03-23 21:41:46 12009

原创 CVPR2023论文速递（2023.3.22）！已接入ChatGPT总结！共31篇！

整理：AI算法与图像处理CVPR2023论文和代码整理：https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo欢迎关注公众号 AI算法与图像处理，获取更多干货：大家好,最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分类,方便不同方向的小伙伴挑选自己感兴趣的论文哈大家好，目前给每天的论文汇总接入chatGPT帮忙总结，目前在...

2023-03-22 21:01:45 6901

labelme标注工具, 免安装版

机器学习推荐好书

空空如也