OneFlow深度学习框架
码龄4年
关注
提问 私信
  • 博客:1,906,405
    社区:260,383
    动态:1,636
    视频:3
    2,168,427
    总访问量
  • 371
    原创
  • 5,169
    排名
  • 5,668
    粉丝
  • 学习成就
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2020-11-16
博客简介:

OneFlow深度学习框架

博客描述:
不止于成为世界上最快的开源深度学习框架。https://github.com/Oneflow-Inc/oneflow
查看详细资料
博客首页
  • 原力等级
    成就
    当前等级
    7
    当前总分
    4,821
    当月
    28
个人成就
  • 企业官方账号
  • 获得2,584次点赞
  • 内容获得434次评论
  • 获得3,780次收藏
  • 代码片获得302次分享
创作历程
  • 76篇
    2024年
  • 101篇
    2023年
  • 141篇
    2022年
  • 92篇
    2021年
  • 44篇
    2020年
成就勋章
TA的专栏
  • 前沿技术
    160篇
  • 业界观点
    124篇
  • 社区新闻
    21篇
  • CHANGELOG
    3篇
  • 计算机架构
    1篇
  • 科技星辰
    4篇
  • 社区之星
    15篇
兴趣领域 设置
  • 人工智能
    opencv语音识别计算机视觉机器学习深度学习自然语言处理图像处理nlp
TA的社区
  • OneFlow深度学习框架
    222 成员 262 内容
    创建者
关注“OneFlow”官方微信公众号


不止于成为世界上最快的开源深度学习框架

创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

183人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

LLM长上下文RAG能力实测:GPT o1 vs Gemini

本文深入探讨了检索增强生成(RAG)技术在AI工作流中的应用,特别是OpenAI的o1系列模型和Google的Gemini 1.5模型在长上下文RAG任务中的性能,分析了不同模型在长上下文RAG任务中的失败模式,为开发者构建RAG系统提供了宝贵参考。(本文由OneFlow编译发布,转载请联系授权。原文:https://www.databricks.com/blog/long-context-rag...
原创
发布博客 昨天 08:03 ·
373 阅读 ·
5 点赞 ·
0 评论 ·
18 收藏

推算LLM训练的GPU内存需求

本文将分析大语言模型训练的GPU内存需求,主要包括三个方面:训练数十亿参数基于Transformer的LLM时,每个GPU设备需要多少GPU内存;估算内存需求的公式是什么;如果模型无法匹配内存,在实践中应采取哪些措施来减少内存需求。(本文由OneFlow编译发布,转载请联系授权。原文:https://medium.com/@maxshapp/understanding-and-estimating...
原创
发布博客 2024.11.08 ·
826 阅读 ·
30 点赞 ·
0 评论 ·
17 收藏

70B大模型训练秘方③:1000次超参数优化实验的发现

今年6月,大模型公司Imbue依托它们自主构建的基础设施,从零起步,成功训练出一个70B参数的模型,其在相关推理任务上的卓越表现远零样本GPT-4o。在《70B大模型训练秘方① :数据集创建与评估》一文中,他们分享了用于模型评估的数据集,包含11个公共数据集的高质量子集,以及一套用于代码理解的原始问题。重点分享了为什么选择这些特定的数据集,以及数据创建过程和实际数据集的详细信息。在《从裸机到70B...
原创
发布博客 2024.11.05 ·
892 阅读 ·
8 点赞 ·
0 评论 ·
11 收藏

从通才到专家:AI系统向复合AI的演变

复合AI系统凭借其多模型、多工具的协同方式,展现出传统单一AI难以匹敌的应对复杂问题的能力,引发了广泛关注和讨论。本文从单体架构和微服务架构的演变切入,揭示了复合AI系统如何通过模块化的方式优化任务执行,提升灵活性与精准度。以Databricks Mosaic AI平台为例,作者Yared Gudeta分析了复合AI在维护系统中的应用实例,展示了该系统如何整合向量嵌入、图数据库和大语言模型以高效解...
原创
发布博客 2024.11.01 ·
599 阅读 ·
18 点赞 ·
0 评论 ·
28 收藏

用初中数学理解LLM工作原理

本文将从基础开始讨论大语言模型(LLM)的工作原理——假设你只知道如何对两个数字进行加法和乘法。首先,作者Rohit Patel会从构建一个简单的生成式人工智能出发,逐步阐释理解现代LLM和Transformer架构所需的所有知识。本文将剔除机器学习中所有花哨语言和术语,将一切简单地表示为数字。(本文作者Rohit Patel是Meta的数据科学家。本文由OneFlow编译发布,转载请联系授权。原...
原创
发布博客 2024.10.30 ·
1124 阅读 ·
22 点赞 ·
0 评论 ·
23 收藏

10个改变日常的大模型隐藏玩法

大模型可以写代码、做客服、帮忙写文章,但这些不过是冰山一角,大模型还有哪些不为人知但实用的用途?最近,关于大模型的隐藏技能在Reddit上引发热议,各种有趣的“武林秘籍”层出不穷。以下是部分大模型玩家眼中被低估的用途:1. 我手头大约有80盘VHS家庭录像带,于是把它们全部转换成了数字格式。然后,我将每段1-4小时的视频通过Whi...
原创
发布博客 2024.10.26 ·
1750 阅读 ·
23 点赞 ·
0 评论 ·
29 收藏

生成式AI的新战场:逻辑推断与推理计算

自生成式AI革命开启以来,研究正推动该领域从"快速思考(即迅速给出预训练的回应)",向“缓慢思考(即在推理[inference]过程中进行逻辑推理[reasonging])”转变。这一转变正在开启一系列全新的智能应用。生成式AI市场的基础层正趋于稳定,处于一种由一批关键的大型企业及企业联盟构成的均衡状态,其中包括Microsoft/OpenAI、AWS/Anthropic、Meta以及Google...
原创
发布博客 2024.10.25 ·
2403 阅读 ·
26 点赞 ·
0 评论 ·
22 收藏

LLM量化效果评估:50万次实测后的发现

尽管量化已成为大模型性能优化的常规技术手段,但由于很难评估模型量化的实际效果,依然有人质疑量化模型的准确度与生成质量。对此,基于Llama 3.1系列模型,AI模型优化与加速推理服务商Neural Magic进行了超五十万次的实测,以对比模型量化与原始模型的效果。以下是他们评估后中的要点:1.设计了一套覆盖广泛推理场景的评估体系,确保从结构化任务到实际应用的全面分析,包括学术基准测试、真实场景基准...
原创
发布博客 2024.10.24 ·
1893 阅读 ·
16 点赞 ·
0 评论 ·
25 收藏

AI不是另一场“互联网泡沫”

此前,OneFlow发布的《2美元/小时出租H100:GPU泡沫破灭前夜》一文在业内引发强烈反响。不管怎样,当前GPU价格下跌是一个事实,然而这并非唱衰整个AI行业,恰恰相反,更多企业与个人开发者会因此获得更便宜的关键算力资源,同时,随着AI推理与微调需求的增长,这对促进AI应用市场的爆发具有正向作用。更进一步来看,即使存在GPU泡沫,是不是也意味着AI也是一场巨大的泡沫?基于200多页的Stat...
原创
发布博客 2024.10.22 ·
629 阅读 ·
8 点赞 ·
0 评论 ·
12 收藏

最大的顶级数据集开源,HuggingFace排名第一,可创建15万亿Token

去年 12 月,生成式 AI 公司 Petuum 以及穆罕默德·本·扎耶德人工智能大学(MBZUAI)共同推出了一个用于创建开源大型语言模型的项目LLM360,旨在提高开源代码的透明度,公开整个 LLM 训练过程、代码、数据和最佳实践,以帮助开发人员更轻松、更快捷、更经济地创建开源大型语言模型,实现...
原创
发布博客 2024.10.19 ·
1493 阅读 ·
5 点赞 ·
0 评论 ·
11 收藏

10倍工程师的高效编码工具:Cursor x SiliconCloud x DeepSeek v2.5

Cursor 是一个基于 VSCode 开发的 AI 代码编辑器,提供强大的 AI 代码编辑能力。本文介绍如何利用 Cursor 的自定义模型功能,在 Cursor 中使用硅基流动 SiliconCloud 的 API,接入DeepSeek v2.5、Qwen2.5等大模型,通过高效、价格亲民的 API 服务,数量级提升你的编码能力。本文还讨论了 Cursor 免费版的常见限制以及对应的...
原创
发布博客 2024.10.18 ·
2606 阅读 ·
25 点赞 ·
0 评论 ·
18 收藏

NotebookLM爆火背后:AI原生产品的核心洞察与创新

Perplexity、Cursor爆火之后,NotebookLM成为又一款备受欢迎的AI原生产品。NotebookLM是Google实验室(GoogleLabs)在2023年5月推出的一款原生AI笔记管理工具,能帮助用户高效地组织和提取信息,其前身是Google的Project...
原创
发布博客 2024.10.16 ·
1757 阅读 ·
15 点赞 ·
0 评论 ·
10 收藏

分享ComfyUI BizyAir工作流,赢5000元机票补贴

凭着小步快跑的节奏,ComfyUI 云节点 BizyAir 已越发强大:集成了 FLUX.1、StableDiffusion、Kolors 等强大模型,支持自定义 LoRA 模型,还有 SiliconCloud LLM 的 AI 提示优化功能,助力你的创作。近期,BizyAir 还新增了模型上传共享功能,相信熟练掌握了 BizyAir 的你,现在一定强得可怕 :D所以,是时候给社区分享你的创作成果...
转载
发布博客 2024.10.16 ·
91 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

2美元/小时出租H100:GPU泡沫破灭前夜

红杉资本的报告曾指出,AI产业的年产值超过6000亿美元,才够支付数据中心、加速GPU卡等AI基础设施费用。而现在一种普遍说法认为,基础模型训练的资本支出是“历史上贬值最快的资产”,但关于GPU基础设施支出的判定仍未出炉,GPU土豪战争仍在进行。尤其是,以OpenAI为代表的大模型公司在训练+推理上的支出超过了收入,最近他们在有史以来最大的风险投资轮中筹集了66亿美元,同时预计2026年的亏损将达...
原创
发布博客 2024.10.13 ·
3929 阅读 ·
12 点赞 ·
0 评论 ·
15 收藏

AI工程师指南:我是谁,从哪来,到哪去?

生成AI 正在以前所未有的速度重塑各行各业,而站在这场变革最前沿的莫过于 AI 工程师们。在「十字路口」的最近一期播客中,主播Koji(新世相创始人)与Ronghui(科技VC)两位邀请了两位 AI 领域的杰出人物硅基流动创始人&CEO 袁进辉与独立开发者 idoubi分享他们对 AI 工程师这个职业的独到见解。从底层技术到应用开发,从...
原创
发布博客 2024.10.12 ·
692 阅读 ·
24 点赞 ·
0 评论 ·
23 收藏

再谈LLM逻辑推理的三大谬误

在此前的文章《LLM逻辑推理的枷锁与破局策略》,作者Alejandro Piad Morffis论述了为什么大语言模型不具备推理(reasoning)能力,并在X上引发强烈争论(https://x.com/alepiad/status/1837154075093225594)。针对这一主题,他再次写了一篇文章来驳斥关于LLM推理的三大误解。他认为,LLM在许多情况下所做的事情只是类似于推理,但并不...
原创
发布博客 2024.10.11 ·
1967 阅读 ·
29 点赞 ·
0 评论 ·
12 收藏

开源AI背后的商业密码

商业公司为何热衷于开源项目?为什么要花费大量资源研发一个免费公开,甚至可能暴露竞争优势的工具?本文作者将从商业角度探讨这个问题,重点分析AI技术生态系统中的不同利益相关者如何利用开源软件取得优势,并探讨公司如何通过开源增加业务采纳度的不同策略。(本文由OneFlow编译,转载请联系授权。https://artificialintelligencemadesimple.substack.com/p/...
原创
发布博客 2024.10.05 ·
4318 阅读 ·
32 点赞 ·
0 评论 ·
20 收藏

从裸机到70B大模型②:基础设施设置与脚本

今年6月,大模型公司Imbue依托它们自主构建的基础设施,从零起步,成功训练出一个70亿参数的模型,其在相关推理任务上的卓越表现远零样本GPT-4o。在《70B大模型训练秘方① :数据集创建与评估》一文中,他们分享了用于模型评估的数据集,包含11个公共数据集的高质量子集,以及一套用于代码理解的原...
原创
发布博客 2024.09.29 ·
2263 阅读 ·
12 点赞 ·
0 评论 ·
30 收藏

大模型成本效益对比:DeepSeek 2.5 VS Claude 3.5 Sonnet VS GPT-4o

与Claude和GPT模型相比,DeepSeek模型过去一度被开发者社区忽视。不过,过去几个月以来,DeepSeek的发展势头非常迅猛。随着DeepSeek 2.5发布(该版本整合了DeepSeek-V2-Chat和DeepSeek-Coder-V2-Instruct的功能),该模型热度达到顶峰。DeepSe...
原创
发布博客 2024.09.27 ·
3320 阅读 ·
31 点赞 ·
0 评论 ·
30 收藏

LLM逻辑推理的枷锁与破局策略

大型语言模型(LLM)常常看似能够有效地进行推理(Reasoning)。它们能够给出连贯且与上下文紧密相关的回复,这些回复与人的推理结果相似。不过,这种表面上的能力可能会产生误导。大型语言模型在面对需要大量推理链的复杂问题时经常犯错。它们的回复起初可能看起来合乎逻辑,但往往缺乏进行...
原创
发布博客 2024.09.24 ·
3381 阅读 ·
11 点赞 ·
0 评论 ·
17 收藏
加载更多