- 博客(30)
- 收藏
- 关注

原创 如何在Kaggle中使用miniconda
本文介绍了如何在Kaggle平台上使用Miniconda进行Python环境管理。首先,通过命令行检查Python版本(3.11.11),然后创建并安装Miniconda到指定目录。接着,使用Miniconda创建一个新的Python环境(conda_env),并指定Python版本为3.10。通过激活该环境,可以验证Python版本已切换至3.10.16。最后,演示了如何在激活的环境中安装numpy库。整个过程展示了如何在Kaggle中灵活管理不同的Python环境,以满足不同项目的需求。
2025-05-13 13:21:31
640
原创 MINIMAX AI 提出新的RL方法“One RL to See Them All: 视觉三重统一强化学习”
V-Triune是一种创新强化学习框架,首次实现视觉语言模型(VLM)在单一训练流程中同步掌握视觉推理与感知任务。其三大核心组件——数据格式化、验证器奖励计算与源级监控——协同优化模型性能。基于该框架训练的Orsta模型(7B至32B参数)在MEGA-Bench Core基准测试中最高提升14.1%,尤其在动态IoU奖励机制加持下,视觉任务表现显著提升。研究开源了V-Triune系统与Orsta模型,推动VLM领域发展。
2025-05-28 10:39:18
534
原创 通义智文开源QwenLong-L1: 迈向长上下文大推理模型的强化学习
阿里云发布首个强化学习训练的长文本推理模型QwenLong-L1-32B,在七大长文档问答基准中超越多个旗舰模型,性能媲美Claude-3.7-Sonnet。该模型采用创新RL框架,通过渐进式上下文扩展和混合奖励机制优化长文本推理能力。同时开源包含1600道数学、逻辑和多跳推理题目的DocQA-RL-1.6K数据集。研究提出三阶段训练方法:预热微调、课程强化学习和难度感知回溯采样,整合多种RL算法提升模型表现。代码库支持快速部署和训练,提供验证器启动与多节点训练方案。
2025-05-27 15:54:02
517
原创 字节开源 Dolphin: 通过异构锚点提示进行文档图像解析
Dolphin是一种新型多模态文档图像解析模型,采用"先分析后解析"的两阶段方法:首先通过生成元素序列实现页面级布局分析,再通过异构锚点和任务提示并行解析各类文档元素。该模型基于Swin Transformer视觉编码器和MBart文本解码器架构,支持页面级和元素级两种解析粒度,能高效处理文本、表格、公式等复杂文档元素。项目提供Hugging Face模型格式和原始配置两种实现方式,包含完整的安装指南和推理脚本,在多项文档解析任务中展现出优异性能。模型特点包括轻量级架构、并行解析机制和与
2025-05-26 15:49:43
761
2
原创 字节豆包团队开源 BAGEL - 多模态理解和生成统一模型
开源多模态基础模型BAGEL发布,具备先进视觉理解与生成能力。该7B参数模型采用混合专家架构,通过双编码器提取图像特征,在万亿级多模态数据上训练,支持文本到图像生成、智能编辑等任务。基准测试显示,BAGEL在MMBench等视觉理解任务中超越Qwen2.5-VL等模型,图像生成质量优于SD3。其独特之处在于涌现出自由编辑、3D操作等高级能力,研究表明这些能力随训练规模扩大呈阶段性发展。模型还展现出优异的多视图合成和世界导航性能,扩展了传统图像编辑的边界。
2025-05-24 09:50:05
1153
原创 MMaDA——开源首个多模态大扩散语言模型
MMaDA是一套创新的多模态扩散基础模型,通过统一架构实现文本推理、多模态理解和文生图功能。核心创新包括:1) 模态无关的统一扩散框架;2) 混合长思维链微调技术;3) 专研的UniGRPO强化学习算法。模型系列包含三个阶段(Base/MixCoT/Max),当前已开源8B-Base版本,支持文本/多模态/图像生成任务。用户可通过简单命令快速部署推理环境,并利用配套脚本执行三类生成任务。该项目的代码、模型和论文均已在Huggingface等平台公开。
2025-05-24 09:42:42
849
原创 Mistral AI 开源最新 Small 模型——Devstral-Small-2505
Devstral 是一款专为软件工程任务设计的代理型大语言模型(LLM),由 Mistral AI 和 All Hands AI 合作开发 。Devstral 擅长使用工具探索代码库、编辑多个文件以及驱动软件工程代理。该模型在 SWE-bench 上表现出色,使其成为该基准测试中排名第一的开源模型。
2025-05-23 10:09:10
1871
原创 百度飞桨PaddleOCR 3.0开源发布 OCR精度跃升13%
百度飞桨团队于2025年5月20日发布了PaddleOCR 3.0版本,该版本在文字识别、多语种支持、手写体识别及文档解析等方面取得显著进展。核心亮点包括全场景文字识别模型PP-OCRv5,提高了识别精度和速度;通用文档解析方案PP-StructureV3,增强了布局区域检测和表格识别能力;智能文档理解方案PP-ChatOCRv4,结合大模型优势提升了信息提取准确性。此外,PaddleOCR 3.0还优化了部署能力和训练流程,并支持多种国产硬件。这一发布展示了百度在OCR技术上的创新,为开发者提供了更强大的
2025-05-23 07:19:04
1309
原创 更新nvidia-container-toolkit 1.17.7-1后,运行--gpus all 卡死问题
在使用Arch Linux时,尝试通过sudo docker run -it --runtime=nvidia --gpus all命令运行Docker容器时遇到系统卡死问题。经过数小时的排查,发现问题的根源在于nvidia-container-toolkit的1.17.7-1版本存在缺陷,该问题在Ubuntu和Arch系统上均有出现。解决方法是降级到1.17.6版本,通过执行sudo downgrade nvidia-container-toolkit libnvidia-container命令后,系统恢
2025-05-22 18:21:03
147
原创 Nvidia通过自研LLM压缩技术爆炸式提升模型性能
Llama-3.1-Nemotron-Nano-4B-v1.1 是一个基于 NVIDIA 的 Llama-3.1-Minitron-4B 模型衍生的大型语言模型(LLM),通过压缩技术从 Llama 3.1 8B 创建,旨在提升模型准确性和效率。该模型支持 128K 的上下文长度,并经过多阶段的后训练,包括监督微调和强化学习,以增强其推理、聊天和任务处理能力(如 RAG 和工具调用)。它适配于单个 RTX GPU,可在本地使用,并已准备好用于商业用途。模型支持多种语言,包括英语、编程语言及其他非英语语言。使
2025-05-21 10:58:32
1017
原创 火山引擎推出开源 MCP Servers,助力大模型应用开发
火山引擎发布了开源的大模型生态平台MCP Servers,旨在简化大模型应用的开发过程。该平台通过MCP协议允许企业封装和共享自研工具,形成一个互利共赢的生态系统。MCP Servers集成了多种高频场景的工具,如搜索、数据库和业务系统API,使开发变得像搭积木一样简单。此外,火山引擎推出了“MCP Market+火山方舟+Trae”的全链路开发闭环,支持从工具调用、模型推理到应用部署的一站式服务。火山方舟应用实验室也已开源多款大模型MCP应用,如DeepSearch,集成了多种MCP服务,进一步降低开发难
2025-05-21 06:45:14
218
原创 微软的 Windows Linux 子系统现已开源
微软宣布将其Windows Linux子系统(WSL)开源,代码已在GitHub上发布,供开发者下载、构建和贡献。WSL自2016年推出以来,已成为Windows中运行Linux环境的重要工具。微软通过重构操作系统,使WSL能够独立运行,从而实现了开源。此举旨在让开发者社区能够直接参与WSL的改进和功能扩展,进一步提升其性能和与Linux服务的集成。微软高级软件工程师Pierre Boulay指出,WSL的演进包括从基于微进程的lxcore.sys到依赖Linux内核的转变,以及最终与Windows发行分离
2025-05-20 11:05:06
677
原创 B 站团队开源动漫视频生成模型 AniSora,一键打造多种风格动画
B站团队近日开源了动漫视频生成模型AniSora,旨在为动漫创作者和爱好者提供全新的创作工具。AniSora能够一键生成多种动漫风格的视频片段,涵盖剧集、原创动画、漫画改编、VTuber内容等多个领域。该模型通过构建完整的数据处理流水线、引入可控生成模型中的时空掩码模块,以及建立评测数据集,有效解决了动漫视频生成中的艺术风格、运动夸张和物理规律突破等难题。AniSora支持图生视频、帧插值和局部图像引导功能,显著提升了创作的灵活性和自由度。通过双盲人评实验和VBench测试,AniSora在人物一致性与运动
2025-05-19 13:02:23
461
原创 【Qwen开源】WorldPM: 扩展人类偏好建模
本文探讨了偏好建模中的扩展定律,提出了世界偏好建模(WorldPM)概念,强调其在人类偏好统一表示中的潜力。通过从公共论坛收集数据,并在1.5B到72B参数的模型上进行训练,研究发现:(1)对抗性指标随模型和数据规模增加而扩展;(2)客观指标在更大模型中表现出涌现行为;(3)主观指标未显示扩展趋势。实验验证了WorldPM在偏好微调中的有效性,显著提升了多个基准测试的性能。研究还分析了主观领域无法扩展的原因,并探讨了偏好建模的可扩展性,指出稀疏监督和噪声数据并不阻碍扩展。最后,提供了WorldPM模型的使用
2025-05-19 12:40:00
854
原创 阿里巴巴开源移动端多模态LLM工具——MNN
MNN 是一个高效且轻量级的深度学习框架,专注于设备端的推理和训练,具有行业领先的性能。它已集成到阿里巴巴集团的多个应用中,覆盖直播、短视频、搜索推荐等70多个场景,并支持嵌入式设备。MNN-LLM 和 MNN-Diffusion 是基于 MNN 引擎开发的大型语言模型和稳定扩散模型的运行时解决方案,旨在将模型部署到本地平台。MNN 作为 Walle 系统的基础模块,支持多设备混合计算,并通过优化汇编代码和 GPU 支持实现高性能。其轻量级设计、多功能性和高性能使其成为移动和嵌入式设备上的理想选择。
2025-05-17 15:21:17
1018
原创 时隔9个月问题终于修复 Windows 11双系统可正常启动Linux了
微软在2025年5月修复了双系统设备无法启动Linux系统的问题。该问题源于2024年8月Windows 11的KB5041585更新中引入的SBAT功能,该功能错误地阻止了Linux发行版的启动。经过9个月的等待,微软在2025年5月的KB5058405更新中彻底解决了这一故障,并建议用户安装最新更新以获取改进和修复。
2025-05-17 10:41:09
312
原创 LBM:潜在桥接匹配用于图像重照明
潜在桥匹配(LBM)是一种创新的图像到图像转换方法,通过潜在空间中的桥匹配实现快速转换。该方法能够根据背景重新照亮前景对象,具有多功能性和可扩展性。用户可以通过安装相关库并使用提供的代码进行推理,快速生成转换后的图像。更多信息可参考实时演示和官方Github仓库。
2025-05-15 13:49:31
347
原创 Step1X-3D:实现高保真和可控 纹理 3D 资产的生成
Step1X-3D是一个创新的开放框架,旨在解决3D生成领域中的数据稀缺、算法限制和生态系统碎片化等挑战。该框架通过严格的数据处理流程,处理超过500万个资产,创建了一个包含200万个高质量数据集的标准化几何和纹理属性。Step1X-3D采用了两阶段的3D原生架构,结合了混合VAE-DiT几何生成器和基于SD-XL的纹理合成模块,确保了跨视图一致性和细节保留。该框架完全开源,包括模型、训练代码和适配模块,支持将2D控制技术直接转移到3D合成中。基准测试表明,Step1X-3D在性能上超越了现有的开源方法,并
2025-05-15 06:30:00
1180
原创 ICEdit:开启指令式图像编辑的新时代
ICEdit是由浙江大学与哈佛大学联合开发的高效图像编辑技术框架,旨在解决传统图像编辑方法在精度与效率之间的权衡问题。其核心技术包括上下文编辑框架、LoRA-MoE混合微调策略和推理时早期筛选策略。ICEdit通过自然语言指令驱动图像编辑,支持多轮编辑、风格转换、对象替换与添加等功能,处理速度快且资源需求低。其开源性和低成本使其适用于内容创作、辅助设计、智能交互等多种应用场景。ICEdit的成功不仅提升了图像编辑的质量和效率,还为未来技术发展提供了新的可能性。
2025-05-13 08:42:07
1001
原创 探索 360 智脑3:人工智能新时代的领航者
360集团近日开源并升级了其自研的7B参数模型360智脑3-7B,该模型在Github开源社区上线,可免费商用。相比10B以下小参数模型,360智脑3-7B在多个基准测试中表现优异,尤其在中文数据集上表现突出。该模型在360Zhinao2-7B基础上,通过7000亿高质量token进行持续预训练,提升了性能。模型评估显示,其在语言理解、知识推理、代码生成等方面均具有竞争力,成为人工智能领域的重要突破。
2025-05-13 07:00:00
580
原创 UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力
魔搭ModelScope社区近日推出了UGMathBench动态基准测试数据集,旨在评估语言模型在本科数学领域的推理能力。该数据集包含5062个题目,涵盖16个数学科目,并为每个题目提供3个随机版本,以动态变化的问题更真实地测试模型。研究团队提出了有效准确率、推理差距和稳健性效率三个关键指标,对23个先进语言模型进行了评估,结果显示即使是先进模型也面临挑战。UGMathBench的发布为语言模型数学推理能力的评估提供了新工具,并支持研究者深入理解模型的内在推理逻辑。数据集和技术报告已对外开放下载。
2025-05-11 13:57:18
514
1
原创 【字节拥抱开源】字节豆包团队开源首发 Seed-Coder 大模型
Seed-Coder 是一个功能强大且透明的 8B 级开源代码模型系列,包括基础变体、指导变体和推理变体。该模型通过以大语言模型(LLMs)为核心的数据管道,减少了预训练数据构建中的人工工作量,并在多种编码任务中实现了最先进的性能。Seed-Coder-8B-Base 支持代码补全和填充中间部分(FIM)任务,训练数据来自 GitHub 和代码相关网络数据,训练标记达 6 万亿。Seed-Coder-8B-Instruct 则通过预训练与后训练结合,在广泛的编码任务中表现优异。评估结果显示,Seed-Cod
2025-05-10 09:48:35
1087
原创 LLaMA-Omni 2:基于 LLM 的自回归流语音合成实时口语聊天机器人
LLaMA-Omni 2 是基于 Qwen2.5-0.5B/1.5B/3B/7B/14B/32B-Instruct 模型的一系列语音语言模型。与 LLaMA-Omni 类似,它可以同时生成文本和语音应答,从而实现高质量、低延迟的语音交互。通过新引入的流式自回归语音解码器,LLaMA-Omni 2 与 LLaMA-Omni 相比实现了更高的语音质量。
2025-05-07 14:29:18
731
原创 Baichuan-Audio: 端到端语音交互统一框架
是一个开源的端到端语音交互模型,无缝集成了音频理解和生成功能,支持高质量、可控的实时双语(汉英)对话。: 为了促进语音模型的发展,我们开源了一个端到端语音基础模型,该模型由高质量的大量数据训练而成。该模型未经过 SFT 指令微调,具有很强的可塑性。: 该模型接受文本和音频作为输入,生成高质量的文本和音频输出,能够进行。此外,我们还开源了音频理解和生成基准(OpenAudio-Bench),以评估端到端音频能力。此外,预培训数据也即将开源。
2025-05-06 12:18:12
981
1
原创 Baichuan-Omni 编程手册
百川-Omni-1.5 代表了百川-omni 系列中最新、最先进的模型,通过端到端方法进行训练和推理。与开源模型相比,Baichuan-Omni-1.5 在理解文本、图像、音频和视频输入方面都有显著改进。值得注意的是,该模型在可控实时语音交互和跨各种模式的协作实时理解方面展示了令人印象深刻的能力。除了一般能力之外,百川-Omni-1.5 还是医疗领域最杰出的 MLLM。这为 AGI 为人类社会的福祉做出贡献开辟了令人兴奋的新可能性。
2025-05-06 08:13:37
633
原创 Baichuan-Omni-1.5:支持文本、图像、视频和音频输入以及文本和音频输出的开源全模式基础模型
是最新的端到端训练有素的全模态大型模型,支持综合输入模式(文本、图像、视频、音频)和双输出模式(文本和音频)。它以 Qwen2.5-7B 语言模型为基础,可以处理来自各种模式的输入,并以可控的方式生成高质量的文本和语音输出。:为了促进全模态模型的发展,我们开源了一个在高质量、广泛的数据集上训练的基础模型。该模型没有经过指令监督微调(SFT),具有极大的灵活性,是目前可用的。:利用强大的百川-Omni-1.5-Base,该模型使用高质量的全模态对齐数据进行端到端训练。百川-Omni-1.5实现了与。
2025-05-06 08:08:19
946
原创 【人人拥有“贾维斯”】Qwen2.5 Omni终于支持消费级显卡了,推出了 3B 模型
Qwen2.5-Omni 是一种端到端多模态模型,旨在感知文本、图像、音频和视频等多种模态,同时以流式方式生成文本和自然语音响应。
2025-05-03 12:37:06
1420
原创 继V1.5之后,幻方又发布了 DeepSeek-Prover-V2-671B,参数提升100倍
我们介绍了 DeepSeek-Prover-V2,这是一个开源的大型语言模型,专为精益 4 中的形式定理证明而设计,其初始化数据是通过 DeepSeek-V3 支持的递归定理证明流水线收集的。冷启动训练程序首先会提示 DeepSeek-V3 将复杂问题分解为一系列子目标。已解决的子目标的证明被合成为一个思维链过程,与 DeepSeek-V3 的逐步推理相结合,为强化学习创建一个初始冷启动。这一过程使我们能够将非正式和正式的数学推理整合到一个统一的模型中。
2025-05-03 12:24:53
1240
原创 微软推出数款Phi 4“开放式”人工智能模型
微软周三推出了几款新的“开放式”人工智能模型,其中功能最强大的模型至少在一个基准测试上可与 OpenAI 的 o3-mini 相媲美。所有新的授权模型——Phi 4 mini reasoning、Phi 4 reasoning 和 Phi 4 reasoning plus——都是“推理”模型,这意味着它们能够花更多时间对复杂问题的解决方案进行事实核查。微软表示,Phi 4 mini 推理机的参数规模约为 38 亿,专为教育应用而设计,例如轻量级设备上的“嵌入式辅导”。
2025-05-01 18:29:01
812
1
原创 【小米拥抱开源】小米开源 MiMo 家族,探索 Reasoning 的可能性
目前,包括开源研究在内的大多数成功的 RL 作品都依赖于相对较大的基础模型,如 32B 模型,尤其是在增强代码推理能力方面。此外,人们普遍认为,在一个小模型中实现数学能力和代码能力的统一和同步提高具有挑战性。尽管如此,我们认为,经过 RL 训练的推理模型的有效性依赖于基础模型固有的推理潜力。要想充分释放语言模型的推理潜力,不仅要注重后期训练,还要注重为推理量身定制的前期训练策略。在这项工作中,我们提出了 MiMo-7B 模型,这是一系列从零开始训练的模型,专为推理任务而生。
2025-05-01 18:26:38
1048
Agent Q.pdf-Agent Q: Advanced Reasoning and Learning for Autono
2024-08-29
image模型,yolov3.pt
2023-01-12
image模型,tiny-yolov3.pt
2023-01-12
retinanet-resnet50-fpn-coco-eeacb38b.pth
2023-01-12
densenet121-a639ec97
2023-01-12
inception-v3-google-1a9a5a14.pth
2023-01-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人