自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 如何用conda创建虚拟环境,同时用pycharm添加

本文介绍了两种创建Python虚拟环境的方法:终端创建和PyCharm直接创建。终端创建方法详细说明了如何指定环境位置和Python版本,包括conda环境的初始化、激活、配置默认路径等操作,并提供了环境迁移的注意事项。PyCharm创建方法则指出无法指定安装位置的局限性。文章建议优先使用终端创建环境后再导入PyCharm,以确保环境配置的灵活性。

2025-12-31 00:29:03 690

原创 【文献学习】通过重新定位注意力图(Attention Map)进行无训练(Training-Free)文本到图像(Text-to-Image)合成的空间传输优化

本文提出STORM模型,一种无需训练的文本到图像生成方法,通过空间传输优化(STO)框架解决扩散模型中目标错位问题。该方法将注意力图视为分布,利用最优传输理论动态调整目标位置,设计包含位置约束和非重叠约束的空间传输代价函数,结合Sinkhorn算法实现高效求解。实验表明,STORM在空间准确性、目标存在性和属性一致性方面优于现有方法,尤其在扩散早期阶段优化效果显著。但该方法目前仅支持简单方位关系,对复杂空间描述和多目标场景的处理能力有待验证。

2025-11-27 23:34:21 1063

原创 【文献学习】Type-R: Automatically Retouching Typos for Text-to-Image Generation

本文提出Type-R模型,用于自动修复文本到图像生成中的排版错误。该模型采用四阶段流程:错误检测(OCR识别+最优传输匹配)、文本擦除(LaMa修复)、布局重建(GPT-4o生成)和拼写修正(AnyText编辑)。实验表明,Type-R与Stable Diffusion3/Flux结合可显著提升OCR准确率(达80%),同时保持图像质量(GPT评估验证)。创新点在于:1)独立后处理架构兼容任意生成模型;2)模块化设计便于升级;3)迭代式修正机制。局限包括依赖外部模型性能、流程误差累积及计算成本较高。

2025-11-22 22:29:07 1410

原创 【文献学习】A Unified Performance Framework for Integrated Sensing-Communications Based on KL-Divergence

本文研究了集成感知与通信(ISAC)系统中通信与雷达的联合优化问题。通过引入Kullback-Leibler散度(KLD)作为统一性能指标,同时评估通信子系统和雷达子系统的检测性能。系统采用MIMO基站服务多个单天线用户并检测多个目标,使用零强迫(ZF)和最大比率传输(MRT)等预编码技术。理论分析和仿真表明,KLD能有效衡量系统性能,为ISAC资源分配提供新视角。研究结果为6G网络中通信与感知的协同优化提供了理论支持和技术参考。

2025-11-18 22:05:26 991

原创 【文献学习】Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixture-of-Experts

本文提出LiveEdit框架,用于视觉大语言模型(VLLM)的终身知识编辑。针对现有单次编辑方法的不足,LiveEdit采用低秩专家混合(MoE)和两阶段路由策略(硬路由筛选视觉相关专家,软路由分配文本权重),动态更新模型知识而不影响原始参数。实验在LLaVA-V1.5等模型上验证了1-1000次编辑的有效性,表明该方法通过特征维度优化和分层融合机制,在保持模型可靠性和局部性的同时实现了持续知识更新。关键创新在于专家库的动态构建与基于视觉/文本特征的路由策略。

2025-11-17 14:12:32 1019

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除