自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1460)
  • 资源 (1)
  • 收藏
  • 关注

原创 python | AI编程时代的“代码守门员”,Code Rabbit 上手体验!

CodeRabbit是一款基于AI的自动化代码审查工具,能够在GitHub/GitLab的PR中即时分析代码质量。它从逻辑、可读性、安全性等多维度审查代码,精准指出问题并提供修改建议,帮助开发者提升代码质量。相比代码生成工具,CodeRabbit专注于代码审查环节,能发现格式错误、异常处理缺失等隐患。通过实操案例演示,该工具可自动识别错误格式、缺失文档等问题,并给出可执行的修复建议。

2025-12-03 17:45:20 1050

原创 OpenCV与AI深度学习 | YOLOv11在自定义数据集上训练做实例分割

YOLOv11 作为强大的实例分割工具脱颖而出,结合了尖端的准确性和效率。按照本文中概述的步骤,您可以在自定义数据集上有效地训练 YOLOv11 模型,并将其功能用于各种应用程序。

2025-12-02 17:52:30 875

原创 集智书童 | 打破多语言诅咒 | MetaCLIP 2零样本ImageNet首破81%

作者介绍了MetaCLIP 2,这是首个从零开始使用全局图像-文本对训练的CLIP模型。现有的CLIP训练流程主要针对英语设计,若缺乏对全局数据的筛选或受到“多语言诅咒”的影响,无法直接推广到全局范围而不牺牲英语性能。作者的细致研究表明,通过扩展元数据、筛选和训练能力,可以打破这一诅咒,使英语和非英语世界相互受益。具体而言,MetaCLIP 2(ViT-H/14)在零样本IN上超越了仅使用英语的同类模型(性能从80.5%提升至81.3%),并使用单一模型在XM3600、Babel-IN和CVQA等多语言基准

2025-12-02 17:51:36 1270

原创 阿旭算法与机器学习 | 6大顶流深度估计模型对比评估与选型指南

深度估计领域正快速发展,不同模型针对特定任务各具独特优势。通过深入了解各模型的优势与局限,您可以选择最符合项目需求的解决方案。THE END!大家有推荐的公众号可以评论区留言,共同学习,一起进步。

2025-12-01 21:03:42 1387

原创 集智书童 | 万字解析 | 终于等到了Qwen3-VL报告!!!(下)

本文来源公众号,仅用于学术分享,侵权删,干货满满。Image。

2025-12-01 21:03:22 1263

原创 集智书童 | 万字解析 | 终于等到了Qwen3-VL报告!!!(中)

本文来源公众号,仅用于学术分享,侵权删,干货满满。Image。

2025-11-29 20:36:59 591

原创 集智书童 | 万字解析 | 终于等到了Qwen3-VL报告!!!(上)

本文来源公众号,仅用于学术分享,侵权删,干货满满。Image作者推出 Qwen3-VL,这是迄今为止 Qwen 系列中能力最强的视觉-语言模型,在广泛的多模态基准测试中均展现出卓越性能。该模型原生支持高达 256K tokens 的交错上下文(interleaved context),可无缝融合文本、图像与视频。模型家族包含密集型(2B/4B/8B/32B)与混合专家(Mixture-of-Experts, MoE)两种架构(30B-A3B/235B-A22B),以适应不同延迟-质量权衡需求。

2025-11-29 20:36:32 794

原创 周报 | 25.11.17-25.11.23文章汇总

本周技术周报精选多篇优质文章:MobileViCLIP横空出世;3D Gaussian Splatting渲染流程详解;中科大&字节发布单步扩散图像生成新技术;新加坡国立大学提出跨模态理解方案WEAVE;OpenCV在工业检测中的应用;以及Prometheus告警规则配置系列文章(共4篇)。涵盖计算机视觉、AI生成、运维监控等多个领域,为开发者提供前沿技术参考。

2025-11-28 17:24:58 253

原创 Coggle数据科学 | 并行智能体:洞察复杂系统的 14 种并发设计模式

本文探讨了AI智能体系统中的14种并行化能力,旨在提升系统的速度、质量和可靠性。核心方法包括:1)并行工具使用以降低I/O延迟;2)并行假设生成提高决策质量;3)多批评家并行评估确保输出稳健性;4)推测性执行优化响应速度;5)分层团队协作处理复杂任务;6)竞争性智能体提升解决方案多样性;7)流水线处理提高吞吐量;8)分散式黑板协作实现灵活知识共享;9)冗余执行增强容错能力;10)RAG并行查询扩展提升检索召回率;11)分片检索优化大规模知识库性能;12)混合搜索融合提高检索精度.

2025-11-28 17:16:15 883

原创 python | s4cmd,一个超酷的 Python 库!

s4cmd是一款基于Python的高效Amazon S3命令行工具,相比传统s3cmd具有显著性能优势。它支持多线程并发传输、批量删除(效率提升100倍)、大文件分片上传等核心功能,提供ls/put/get/del等基础操作和sync同步、时间戳过滤等高级功能。通过pip安装简便,支持多种凭证配置方式,特别适合日志归档、数据备份等场景。这款仅1500行代码的工具能实现2倍以上的传输速度提升,是运维和开发人员处理S3存储的高效解决方案。

2025-11-27 17:42:28 588

原创 量子位 | ROCK & ROLL!阿里给智能体造了个实战演练场 | 开源

阿里开源新项目ROCK,为智能体训练提供规模化环境服务。ROCK与阿里此前开源的ROLL框架协同,构成完整的智能体训练闭环:ROLL负责算法训练,ROCK提供可弹性扩展的环境沙箱。ROCK基于Ray构建,支持分钟级拉起数万并行训练环境,实现同构/异构环境混合部署,并提供Bash交互式调试能力。其创新性ModelService设计实现了业务逻辑与训练框架的解耦,大幅提升开发效率。该组合解决了智能体训练中的环境规模化瓶颈,使从单机实验到集群大规模训练成为可能,为AgenticAI的工业化应用奠定了基础。

2025-11-27 17:38:29 1547

原创 Coggle数据科学 | 竞赛总结:AFAC2025 金融多模态报告自动化生成

本文来源公众号,仅用于学术分享,侵权删,干货满满。赛题名称:智能体赋能的金融多模态报告自动化生成赛题类型:智能体、多模态赛题任务:研发一个能够自动撰写金融研报智能Agent系统。

2025-11-26 17:50:40 1110

原创 江大白 | 高分辨率图像小目标检测SOTA算法,大幅超越现有最先进检测器 !(附论文及源码)

本文来源公众号,仅用于学术分享,侵权删,干货满满。小目标一直是目标检测的一个痛点,本文为大家介绍一种小目标检测方法ESOD,它是一个通用框架,可以应用于基于CNN和ViT的检测器来节约计算和GPU内存成本。实验证明在VisDrone、UAVDT和小型行人数据集上,作者的方法一致性地大幅度超越现有技术水平。论文链接:https://arxiv.org/abs/2407.16424代码链接:https://github.com/alibaba/esod扩大输入图像是促进小目标检测的一种直接而有效的方法。

2025-11-26 17:48:39 1360

原创 Coggle数据科学 | 行业落地分享:支付宝行业Agent评测的探索与实践

支付宝积极构建行业智能体(Industry Agents),将AI深度融入政务、出行、就业等场景,提供智能化服务。针对传统评测方法的不足,支付宝建立了多维度评测体系:通过行业Benchmark驱动,从基础模型、算法模块到端到端效果进行分层评估;针对规划执行等核心能力设计专项指标;构建User Agent模拟真实用户行为进行个性化评测。该体系能精准定位问题,指导算法优化,确保评测结果与用户真实体验一致,为行业智能体的发展提供科学依据。

2025-11-25 17:35:33 1231

原创 计算机视觉研究院 | NAN-DETR:通过多锚点加噪提升 DETR 的目标检测性能

NAN-DETR:基于多锚点加噪策略的Transformer目标检测新框架 本文提出NAN-DETR模型,通过三项关键创新改进目标检测性能:1)基于解码器的多锚点策略,使用多个独立解码器优化初始锚点框;2)中心化加噪机制,通过可控噪声注入减少锚点冲突;3)采用完全交并比(CIoU)损失优化边界框预测。在COCO数据集上,NAN-DETR以ResNet-50为骨干网络达到50.1%的平均精度(AP),优于现有DETR变体。实验表明该方法特别擅长处理中大尺寸目标检测,虽对小目标检测略有影响,但整体性能显著提升。

2025-11-25 17:23:26 855

原创 python | rauth,一个有趣的 Python 库!

rauth是一个专注于OAuth认证的轻量级Python库,它通过简洁的API设计大大简化了OAuth 1.0/1.0a和OAuth 2.0的实现复杂度。相比于手动处理OAuth协议的各种细节,rauth提供了开箱即用的解决方案,让开发者能够快速集成第三方登录和API授权功能。该库不仅支持Twitter、GitHub、Facebook等主流服务,还具备良好的扩展性,可以轻松对接自定义OAuth服务。通过封装token获取、签名生成、会话管理等底层操作,rauth让开发者能够专注于业务逻辑而非认证细节。

2025-11-24 17:11:56 664

原创 集智书童 | MoIIE打破三阶段魔咒 | 模态内外专家混合+两阶段训练,激活5.5B参数反超密集LVLM

摘要:本文提出混合模态内和模态间专家模型(MoIIE),通过构建视觉、语言和跨模态三个专家组,有效平衡模态特定特征学习和跨模态关联建模。创新性地采用两阶段训练策略,简化传统三阶段流程,实现多模态微调与稀疏化的联合优化。实验表明,MoIIE在13个多模态基准测试中表现优异,激活参数量仅5.5B/11.3B即超越现有模型,尤其在知识问答和幻觉测试中优势显著。该模型展现出良好的扩展性,但存在训练数据有限和模态覆盖不足的局限性。

2025-11-24 17:10:17 712

原创 马哥Linux运维 | Prometheus 告警规则生产级配置:50+ 核心指标与最佳实践(四)

本文介绍了Prometheus告警规则的最佳实践,包括50+核心指标配置与常见问题解答。主要内容涵盖:1) Prometheus与其他监控工具(Zabbix/Nagios)的区别;2) Recording Rules的性能优化作用;3) 告警疲劳的解决方案;4) 数据保留策略建议;5) Kubernetes集群监控方法;6) PromQL查询优化技巧;7) 高可用部署方案。文章还提供了自动化部署脚本、健康检查脚本和扩展阅读资源,帮助用户快速构建生产级监控系统。

2025-11-21 19:15:00 1459

原创 马哥Linux运维 | Prometheus 告警规则生产级配置:50+ 核心指标与最佳实践(三)

本文介绍了Prometheus告警规则的生产级配置与最佳实践,涵盖50+核心指标监控方案。主要内容包括:常见故障排查流程(告警未触发/发送、指标采集失败等)、高基数标签处理方法、变更灰度策略与回滚机制、自动化备份脚本实现。最佳实践部分重点阐述告警规则设计原则(添加for持续时间、Runbook链接)、避免高基数标签技巧、RecordingRules优化复杂查询、告警抑制配置防止风暴、定期故障演练方案、维护窗口静默规则设置,以及大规模场景下的联邦集群架构配置。文章提供了详细的诊断命令和解决方案,帮助运维人员构

2025-11-21 19:00:00 697

原创 马哥Linux运维 | Prometheus 告警规则生产级配置:50+ 核心指标与最佳实践(二)

本文介绍了Prometheus告警规则的最佳实践,包括其核心工作机制与性能优化策略。主要内容涵盖:1)PromQL查询引擎的执行流程与时间序列数据模型;2)告警状态转换机制及for参数的意义;3)Alertmanager的分组、抑制等告警处理流程;4)Prometheus自监控指标与关键告警规则示例;5)性能测试方法及调优建议,如调整抓取间隔、WAL压缩等参数。通过50+核心指标的监控实践,帮助运维人员构建稳定高效的告警体系,平衡响应速度与误报率。文章还提供了完整的性能基准测试方案与典型场景下的资源消耗数据

2025-11-20 17:48:19 1319

原创 马哥Linux运维 | Prometheus 告警规则生产级配置:50+ 核心指标与最佳实践(一)

本文介绍了Prometheus监控系统的生产级部署方案,包括适用场景、反模式警告、环境版本矩阵等。详细讲解了NodeExporter安装、Prometheus配置、告警规则设置和Alertmanager集成,提供完整的实施步骤和验证方法。文章强调适用于云原生和微服务监控环境,推荐8C16G配置支持10K+时间序列,并指出不适用于小规模环境或需要自动修复的场景。附有快速清单和关键脚本,帮助用户快速搭建完整的监控告警系统。

2025-11-20 17:47:26 754

原创 OpenCV与AI深度学习 | 视觉大模型在笔记本工件检测识别领域的运用

本文探讨了利用视觉大模型技术改进笔记本电脑零件检测的方法。针对传统人工检测存在的效率低、适应性差、结果不稳定等问题,介绍了DaoAIWorld深度学习平台通过语义分割模型实现自动化检测的解决方案。该方案使用包含863张图像、1752组标注的数据集进行训练,能准确识别螺丝缺失、线缆歪斜等5类缺陷,模型精度达到85%。实际应用显示该方法可显著提高检测效率和准确性,降低生产成本。文章验证了深度学习在笔记本零件检测中的有效性,展示了工业智能化检测的应用前景。

2025-11-19 17:41:16 677

原创 AI生成未来 | 新加坡国立等发布WEAVE:首个上下文交错式跨模态理解与生成全套解决方案

摘要:WEAVE是首个面向多轮上下文感知跨模态理解与生成的研究体系,包含WEAVE-100k数据集(10万样本/37万轮对话/50万图像)和WEAVEBench人工标注基准。研究表明,基于WEAVE-100k的训练能显著提升模型性能(MMMU提升9.8%,GEditBench提升4.8%),并激发视觉记忆能力涌现。但WEAVEBench评估显示,现有模型在多轮上下文感知生成方面仍存在明显局限。该研究为多模态理解与生成领域提供了重要基准和发展方向。

2025-11-19 17:40:30 1218

原创 Coggle数据科学 | 小白学大模型:Tongyi DeepResearch 系列Agent

本文介绍了多款智能体大语言模型的研发成果及技术突破,包括TongyiDeepResearch、WebWalker、WebDancer、WebSailor等。这些模型通过创新框架设计(如多智能体协作、动态规划等)和训练方法(如强化学习、数据合成管线),显著提升了网络信息检索、多模态推理和长程探索能力。其中WebWatcher引入视觉语言推理,WebResearcher提出迭代研究范式,WebWeaver采用双智能体框架动态优化研究流程,ReSum通过周期性摘要突破上下文限制。

2025-11-18 15:00:00 941

原创 AI生成未来 | 一步直接封神!单步扩散媲美250步教师模型!中科大&字节发布图像生成“分层蒸馏术”

本文提出分层蒸馏(HD)框架以解决单步扩散模型保真度问题。通过理论分析揭示了轨迹蒸馏(TD)在保留全局结构时会损失细节,因此设计了包含两阶段的方案:先利用TD注入结构先验,再通过分布匹配优化细节。创新性地提出自适应加权判别器(AWD),动态聚焦局部伪影指导优化。实验表明该方法在ImageNet256×256上取得FID 2.26,媲美250步教师模型,推理速度提升70倍。该工作为高效高保真单步生成提供了新范式。

2025-11-18 14:45:00 1161

转载 数据派THU | 从零实现3D Gaussian Splatting:完整渲染流程的PyTorch代码详解

本文介绍了使用PyTorch实现3D高斯泼溅(3DGS)技术的方法。3DGS已成为3D视觉领域的重要技术,被NVIDIA和Meta等公司应用于产品中。文章详细讲解了如何用数百行PyTorch代码实现3DGS的核心部分,包括场景表示、渲染流程和球谐函数等关键技术。3DGS将场景表示为可微的各向异性3D高斯分布,并通过两个主要阶段进行渲染:预处理阶段完成高斯投影和排序,渲染阶段执行volume rendering。文章还探讨了球谐函数用于表示视角相关颜色,并提供了完整代码实现。

2025-11-17 17:36:54 1483

原创 周报 | 25.11.10-25.11.16文章汇总

本周技术文章汇总涵盖多个AI热点领域:1)图像技术方面,对比了CLIP、EfficientNet等5种图像相似性搜索算法,介绍了MobileViCLIP在移动设备视频理解上的突破;2)智能体专题发布上下两篇入门指南及《Hello-Agents》学习项目;3)创新应用包括火灾检测数据集、工业异常检测预训练方法ADPretrain及无人机轻量检测网络LUD-YOLO;4)开发工具推荐了iRedis库和ClaudeAgentSDK使用指南。文章来自CSDN等技术社区,涵盖算法研究、应用实践及工具教程。

2025-11-17 17:35:30 406

原创 计算机视觉研究院 | LUD-YOLO:一种用于无人机的新型轻量级目标检测网络

本文来源公众号,仅用于学术分享,侵权删,干货满满。亮点:专为无人机打造的轻量级目标检测网络 LUD - YOLO。提出全新特征融合模式,以解决特征交互退化问题。推出新型特征提取模块,提升推理速度。对模型进行轻量化调整,克服了在无人机应用中的不足。对比结果表明,LUD - YOLO 性能优于其他 10 种同类模型。

2025-11-15 19:16:39 899

原创 皮皮克克 | OpenCV 案例【1】人脸检测

本文来源公众号,仅用于学术分享,侵权删,干货满满。说来惭愧,诸位!最近一直没更新......有诸多原因,但,最烦人的莫过于,一直在加班搬砖可曾想,今年5月31号那天晚上,为了赶项目进度,我一个人通宵加班,真的是身心俱疲,力不从心!第二天早上7点多才从公司出来,那天早上,抬头看着旭日,只有一声轻叹:真 ji er 累啊!所以,请诸君见谅。小编我虽晚必到。前面的系列,讲的是 Shell 脚本相关案例,比较常用,倒也不难。后面,小编准备新开一个系列,给大家带来OpenCV的实战案例,

2025-11-15 19:15:04 517

原创 python | iredis,一个超强的 Python 库!

Redis增强工具iRedis提供智能补全、语法高亮等现代化功能,显著提升Redis命令行操作体验。作为完全兼容redis-cli的交互式客户端,iRedis支持所有Redis数据操作、集群模式及Lua脚本,并通过多行编辑、命令提示等特性优化开发效率。其安装便捷(pip install iredis),具备管道批量操作能力,输出格式友好,是传统redis-cli的理想替代方案。无论是日常开发还是复杂运维,iRedis都能提供更高效、更直观的Redis操作体验。

2025-11-14 16:40:05 1117

原创 Datawhale | 《Hello-Agents》项目正式发布,一起从零学习智能体!(内有github学习地址!)

《Hello-Agents:从零构建AI原生智能体系统》摘要 Datawhale社区推出系统性智能体教程Hello-Agents,聚焦AI原生Agent开发(非工程类Agent)。项目分为五阶段:基础理论→框架构建→核心技术→综合案例→毕业设计,涵盖ReAct范式、记忆系统、多Agent协作等核心内容,配套旅行助手、赛博小镇等实战项目。通过学习,开发者可从LLM使用者进阶为智能体系统构建者,掌握自研框架、训练评估等全流程能力。项目提供完整代码与社区支持,适合具备Python和LLM基础的学习者。开源地址:g

2025-11-14 16:23:39 1283

原创 极市平台 | NeurIPS 2025 | 上交大、南农大提出ADPretrain:为工业异常检测量身打造的预训练“超能力”

上海交大与南京农大提出ADPretrain框架,专为工业异常检测定制预训练。该方法通过残差特征剥离类别信息,并设计角度-范数双对比损失,显著提升了异常检测性能。实验显示,该方法在MVTecAD等数据集上使PatchCore、UniAD等模型的AUROC平均提升20+个百分点。该工作突破了传统ImageNet预训练在工业场景的局限性,为领域特定预训练提供了新思路。

2025-11-13 17:33:41 855 1

原创 Coggle数据科学 | 小白学大模型:Claude Agent SDK 使用指南

Anthropic推出Claude Agent SDK,为开发者提供构建生产级AI智能体的工具包。该SDK基于Claude Code的核心技术,具备上下文管理、丰富工具生态、细粒度权限控制等关键功能。支持Python和TypeScript开发,提供两种交互模式:一次性查询和持续会话。SDK还包含会话管理、自定义工具扩展、子智能体协作等高级特性,适用于编码助手、业务代理等多种应用场景。开发者可通过pip或npm快速安装,实现高效AI智能体开发。

2025-11-13 17:32:57 1655

原创 码科智能 | 传统的火灾检测任务过时了?一个开源的大规模多模态火灾理解数据集来了:场景全覆盖、全风险等级

介绍首个面向多模态大模型的大规模火灾理解数据集DetectiumFire。该数据集包含2.25万张图像和2500个视频,突破传统火灾检测仅提供边界框标注的局限,创新性地采用专家级文本描述标注,并引入8000多张合成数据。数据集覆盖室内外多种火灾场景,包含高低风险火源,有效提升AI对火灾场景的细粒度理解能力。实验显示,基于该数据集训练的模型能显著降低误报率,并实现燃烧物识别、环境评估等高级推理功能。相关论文和数据已公开发布在arXiv和Kaggle平台。

2025-11-12 21:06:47 1090

原创 集智书童 | MobileViCLIP横空出世:55倍速度碾压InternVideo2-L14,移动设备视频文本理解首次超越云端

本文提出首个适用于移动设备的高效视频文本模型MobileViCLIP。针对现有视频预训练模型计算复杂度高、难以部署的问题,作者通过改造轻量级图像文本模型MobileCLIP,引入时空重混器和时空注意力模块增强时序建模能力。实验表明,MobileViCLIP-Small在MSR-VTT等数据集上保持与ViT-L14相当性能的同时,移动端推理速度提升55.4倍,参数和计算量显著降低。模型在动作识别、时序定位等下游任务也展现优秀泛化能力。研究还对模块延迟进行深入分析,为移动端视频模型设计提供重要参考。这项工作实现

2025-11-12 21:03:34 874

原创 周报 | 25.11.3-25.11.9文章汇总

本周技术周报涵盖多个热门领域:编程经验分享(资深程序员心得)、AI技术前沿(AIAgent类型分析、图像编辑突破)、竞赛方案(大模型金融预测Top3)、工具推荐(Clerk、Orator库)、系统优化(MySQL慢查询调优)以及计算机视觉深度解析。亮点包括:天大&快手图像编辑四行代码实现、字节文本生成图像新范式、港科大端到端电影生成技术。同时推荐了10个实用Python项目仓库和机器学习预测库mlforecast。

2025-11-11 17:37:50 217

原创 江大白 | 5款图像相似性搜索算法全面对比,CLIP、EfficientNet 、ViT、DINO-v2、BLIP-2!

本文对比了五种深度模型(EfficientNet、ViT、DINO-v2、CLIP和BLIP-2)在Flickr30k数据集上的图像语义理解表现。通过特征提取和Faiss相似性搜索实验发现:传统CNN模型EfficientNet侧重像素特征,ViT改进有限;基于自监督的DINO-v2能有效捕捉前景物体语义;多模态模型CLIP易受文字信息干扰,而BLIP-2综合表现最佳,尤其在理解复杂场景语义方面优势明显。研究建议根据任务需求选择模型。

2025-11-11 17:34:09 1268

原创 Datawhale | 关于智能体(AI Agent)入门,一篇超详细的总结-下!(建议收藏)

它本质上是一个精确的、静态的流程图,规定了在何种条件下、以何种顺序执行哪些操作。一个典型的案例:某企业的费用报销审批流程。员工提交报销单(触发)-> 如果金额小于500元,直接由部门经理审批 -> 如果金额大于500元,先由部门经理审批,再流转至财务总监审批 -> 审批通过后,通知财务部打款。整个过程的每一步、每一个判断条件都被精确地预先设定。与工作流不同,基于大型语言模型的智能体是一个。

2025-11-10 17:41:30 966

原创 Datawhale | 关于智能体(AI Agent)入门,一篇超详细的总结-上!(建议收藏)

在探索任何一个复杂概念时,我们最好从一个简洁的定义开始。在人工智能领域,智能体被定义为任何能够通过传感器(Sensors)感知其所处环境(Environment),并自主地通过执行器(Actuators)采取行动(Action)以达成特定目标的实体。这个定义包含了智能体存在的四个基本要素。环境是智能体所处的外部世界。对于自动驾驶汽车,环境是动态变化的道路交通;对于一个交易算法,环境则是瞬息万变的金融市场。智能体并非与环境隔离,它通过其传感器持续地感知环境状态。摄像头、麦克风、雷达或各类。

2025-11-10 17:40:55 1512

原创 AI生成未来 | 导演之魂,端到端电影制作更进一步!港科大&蚂蚁等最新HoloCine一键生成完整电影场景

HoloCine框架实现了文本到多镜头视频的整体生成,通过窗口交叉注意力机制实现精确导演控制,并用稀疏镜头间自注意力降低计算成本。该模型在40万样本数据集上训练后,能够生成角色一致、叙事连贯的分钟级视频,具备跨镜头记忆能力和精准的镜头控制。实验表明其在转场控制、一致性等指标上超越现有方法,但与人类导演相比在因果推理上仍存在局限。该研究为自动化电影制作提供了新思路。

2025-11-09 00:45:00 911

全国省-市-区城市经纬度汇总.csv

简介:全国主要区县城市经纬度汇总。我国省级行政区划分:23个省、5个自治区、4个直辖市、2个特别行政区,合计34个省级行政区。 省:河北省、山西省、辽宁省、吉林省、黑龙江省、江苏省、浙江省、安徽省、福建省、江西省、山东省、河南省、湖北省、湖南省、广东省、海南省、四川省、贵州省、云南省、陕西省、甘肃省、青海省、台湾省。 自治区:内蒙古自治区,广西壮族自治区,宁夏回族自治区,新疆维吾尔自治区,西藏自治区。 直辖市:北京市,天津市,上海市,重庆市。 特别行政区:香港特别行政区,澳门特别行政区。

2020-09-09

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除