字节跳动开源
码龄1年
关注
提问 私信
  • 博客:29,392
    29,392
    总访问量
  • 29
    原创
  • 36,179
    排名
  • 314
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2023-12-29
博客简介:

bytedanceospo的博客

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    239
    当月
    25
个人成就
  • 获得498次点赞
  • 内容获得5次评论
  • 获得432次收藏
创作历程
  • 4篇
    2025年
  • 28篇
    2024年
成就勋章
TA的专栏
  • 字节开源存算分离云数仓 ByConity 
    3篇
  • 数据库
    1篇
  • 字节开源存算分离云数仓 ByConity
    3篇
  • AI4D
    5篇
  • KubeWharf
    4篇
兴趣领域 设置
  • 大数据
    数据仓库dba
  • 云原生
    容器kubernetes云原生微服务gateway
  • 人工智能
    人工智能深度学习
  • 开源
    开源开源软件开源协议
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

大语言模型应用开发框架 —— Eino 正式开源!

在组件定义和通用基座能力的基础上,我们认为,大模型应用开发存在相对固定的数据流转和流程编排范式:以 ChatModel(大模型)为核心,通过 ChatTemplate 注入用户输入和系统 prompt,通过 Retriever、Document Loader & Transformer 等注入上下文,经过 ChatModel 生成,输出 Tool Call 并执行,或输出最终结果。在明确的组件定义基础之上,我们认为,大模型应用开发存在通用的基座性质的能力,包括但不限于:处理模型输出的流式编程能力;
原创
发布博客 2025.01.22 ·
748 阅读 ·
15 点赞 ·
0 评论 ·
7 收藏

ICLR 2025 Workshop 征稿:推动基础模型的开源、开放、可复现

Open Foundation Models:预训练策略,包括数据扩展、模型架构、多模态和多任务预训练。学习算法,如元学习、模型融合、模型合并和为开放、可扩展模型设计的持续学习。Open Replication of Proprietary Systems:复现专有的基础模型和系统,确保更广泛的研究和开发的透明度和可重复性。Open Compute Efficiency Techniques:专注于模型蒸馏、压缩、量化和优化注意力或内存机制,以提高基础模型的计算效率。2025 年 2 月 10 日。
原创
发布博客 2025.01.22 ·
669 阅读 ·
16 点赞 ·
0 评论 ·
16 收藏

豆包 MarsCode + 开源 = ?AI 助力开源社区新人成长

使用豆包MarsCode 学习开源项目
原创
发布博客 2025.01.22 ·
1191 阅读 ·
9 点赞 ·
0 评论 ·
12 收藏

数据处理不再是“脏活累活”,听听开发者们怎么说?

本次活动也收集到了不少来自开发者的改进建议,ByConity 社区将根据这些反馈持续优化产品功能,构建一个更加活跃的开源生态。
原创
发布博客 2025.01.02 ·
282 阅读 ·
5 点赞 ·
0 评论 ·
8 收藏

首次覆盖超 11 类真实编程场景!豆包大模型团队开源代码大模型全新基准

字节跳动豆包大模型团队开源 FullStack Bench,一个专注于全栈编程和多语言编程的代码评估数据集。FullStack Bench 能够真实反映大模型在多种实际代码开发场景中的表现,有助于推动代码智能领域的进一步发展。
原创
发布博客 2024.12.06 ·
1164 阅读 ·
17 点赞 ·
0 评论 ·
16 收藏

Kitex/Hertz 助力大模型:三周年重要特性回顾|CloudWeGo

本文根据 CloudWeGo 三周年 《Kitex/Hertz 助力大模型:三周年重要特性回顾》 分享整理,介绍近一年来 Kitex/Hertz 的重要特性,希望为企业用户、社区同学在自己的项目中更好的应用 Kitex/Hertz 构建自己的微服务体系提供帮助。
原创
发布博客 2024.12.06 ·
716 阅读 ·
15 点赞 ·
0 评论 ·
29 收藏

大幅降低数据科学门槛!豆包大模型团队开源AutoKaggle,端到端解决数据处理

字节跳动豆包大模型团队与 M-A-P 社区于近日提出 AutoKaggle ,为数据科学家提供了一个端到端的数据处理解决方案,帮助简化和优化日常数据科学工作流程的同时,极大降低数据科学的门槛,可帮助更多没有相关背景的使用者进行有价值的探索。最后,我们统计了不同错误类型及出现次数,可以看到,每个子任务阶段都有可能发生错误。未来,团队成员还将继续探索智数据科学课题及相关开源工作,并关注 Kaggle 上的最新前沿技术,如果你也对智能体协作、数据科学、大模型对复杂问题的解决感兴趣,有志于探索前沿课题,
原创
发布博客 2024.11.29 ·
747 阅读 ·
25 点赞 ·
0 评论 ·
8 收藏

无文本编码器仍能媲美CLIP!豆包大模型团队首创SuperClass模型

实验结果表明,SuperClass 在各种纯视觉场景和视觉 - 语言多模态场景下均优于 CLIP,同时基于分类的方法,模型展现出与 CLIP 相当,甚至更优的 Scalability。为了更好度量预训练得到的视觉表征能力,我们固定住训练好的视觉模型的参数,将其应用到 Linear probing、zero-shot、10-shot 等分类任务,同时接入到 LLM 做视觉和语言多模态下游任务进行评测。CLIP 广泛应用的另一个场景是多模态理解,作为多模态大模型中的视觉编码器,展现了很好的跨模态能力。
原创
发布博客 2024.11.29 ·
716 阅读 ·
21 点赞 ·
0 评论 ·
20 收藏

最高提升20倍吞吐量!豆包大模型团队发布全新 RLHF 框架,现已开源!

然而,控制流和计算流高度耦合,当设计新的 RL 算法,组合相同的计算流和不同的控制流时,需要重写计算流代码,修改所有相关模型,增加了开发难度。基于 Ray 的分布式编程,动态计算图,异构调度能力,通过封装单模型的分布式计算、统一模型间的数据切分,以及支持异步 RL 控制流,HybridFlow 能够高效地实现和执行各种 RL 算法,复用计算模块和支持不同的模型部署方式,大大提升了系统的灵活性和开发效率。这种灵活的模型部署方式,满足了不同算法、模型和硬件环境下的资源和性能需求。
原创
发布博客 2024.11.12 ·
1002 阅读 ·
16 点赞 ·
0 评论 ·
8 收藏

开源三年,CloudWeGo 的生态发展和社区增长

对于 Hertz 来说,在社区开发者的大力支持和参与下,同样构建了丰富的周边生态,在服务注册发现以及可观测性方面,和 Kitex 的能力集成体验上几乎是一致的,技术栈可以保持统一。微服务架构下,随着业务的发展,对服务的管控难度会越来越大,服务治理的作用就是为了解决服务拆分所引发的一系列问题,以让服务更稳定地运行,涉及的主题包含了服务注册与发现、负载均衡、服务熔断、服务降级、服务限流等。首先,Bookinfo 是 Istio 官方提供的经典 demo 应用,它的目的是演示 Istio 的各种各样特性。
原创
发布博客 2024.11.12 ·
940 阅读 ·
14 点赞 ·
0 评论 ·
21 收藏

在离线统一调度器 Gödel Scheduler 性能优化: 算法设计思想与数据结构应用

本文将以几个经典优化为例,阐述基于这些构思所衍生的算法设计思想与数据结构应用,说明其对提升 Gödel Scheduler 调度性能并最终解决实际问题所发挥的巨大作用。
原创
发布博客 2024.09.26 ·
781 阅读 ·
29 点赞 ·
0 评论 ·
14 收藏

字节跳动冯佳时:大语言模型在计算机视觉领域的应用、问题和我们的解法

字节跳动研究科学家、豆包大模型视觉基础研究团队负责人冯佳时介绍字节跳动视觉基础研究团队在这个方向的探索与进展,包括 LLMs 在图像理解与视频生成上的阶段性结果。
原创
发布博客 2024.09.18 ·
1004 阅读 ·
6 点赞 ·
0 评论 ·
9 收藏

字节跳动开放计算最佳实践,亮相 2024 开放计算中国峰会

8 月 8 日,由两大开放计算组织 OCP(Open Compute Project)与 OCTC(开放计算标准工作委员会)联合主办的主题为 “开放协同:协作、智慧、创新” 的 2024 开放计算中国峰会在北京举行,以期与全球开放计算领域的社区和企业领袖、技术专家以及行业先锋,共同探讨新时代开放计算技术的最新进展和实践经验,促进生态融合、智能化实践和技术创新。而随着人工智能、大模型的爆发,传统的计算正在朝着多模态、多元算力等智能计算融合发展,如何进一步实现生态协同、开放共赢,对开放计算提出了新的要求。
原创
发布博客 2024.09.14 ·
886 阅读 ·
18 点赞 ·
0 评论 ·
15 收藏

完整的数仓能力,ByConity 1.0 版本发布!

在传统的数据分析架构中,这部分工作是由 Hive、Spark、Flink 等产品来完成的。二、增加了对 task 重试的支持:通过设置 bsp_max_retry_num(task的最大重试次数,默认值为5),可以在作业的中间 task 发生失败时,从失败的 task 开始重试,而不是从头开始重试,进而大大减少 failover 对执行时长的影响。ByConity 是字节跳动开源的云原生数据仓库,在满足数仓用户对资源弹性扩缩容,读写分离,资源隔离,数据强一致性等多种需求的同时,提供优异的查询,写入性能。
原创
发布博客 2024.09.10 ·
908 阅读 ·
17 点赞 ·
0 评论 ·
8 收藏

Rspack 1.0 发布了!

近两年,社区中涌现出多个基于 Rust 的 bundler,它们的性能表现都相当优异。Rspack 在确保卓越性能的同时,也在灵活度、兼容性等方面做到了社区领先。Rspack 当前的目标是:帮助现有的 webpack 项目渐进地迁移到高性能的 bundler 上,使构建性能不再成为项目迭代的瓶颈;
原创
发布博客 2024.09.06 ·
1368 阅读 ·
14 点赞 ·
0 评论 ·
18 收藏

开源活动预告|抖音集团专家聚焦电商、PB级实时场景带来数据技术分享

8 月 31 日 13:30,Apache Doris x 字节跳动开源联合 Meetup 北京站即将开启。
原创
发布博客 2024.08.30 ·
236 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

CausalMatch v0.0.1正式发布!字节跳动开源因果推理利器,助力科学决策分析

因此我们需要用匹配的方法,为报名了活动的商家1和商家3在未报名活动的商家中寻找相似商家 - 商家1需要在“报名前7日无登陆抖店”的商家中搜寻对照组、商家3需要在“报名前7日有登陆抖店”的商家中搜寻对照组。在这种情况下,如何科学的估计策略效应成了数据分析或者数据科学团队的一个挑战。因此我们将日常业务中应用最广泛的因果效应估计方法 —— 匹配,进行了理论梳理,并开发了一套专注于匹配的轻量化因果关系分析工具 CausalMatch,为使用该方法来做决策分析的业务场景构建一套流程性且规范化的分析框架。
原创
发布博客 2024.08.28 ·
689 阅读 ·
14 点赞 ·
0 评论 ·
8 收藏

字节云原生数仓 ByConity 开源一周年!听听 Committer 们怎么说

通过和几位 committer 的沟通,我们发现他们对于想参与社区的同学给出了几乎类似的建议。兴趣驱动和业务驱动是两个主要方面,但是只有先用起来,才会发现问题,并通过在社区上寻求帮助或反馈问题逐渐加入社区。同时也非常欢迎大家把使用或者迁移经验分享到社区,并通过丰富社区生态,让 ByConity 社区逐渐壮大。–END–
原创
发布博客 2024.08.06 ·
971 阅读 ·
14 点赞 ·
0 评论 ·
21 收藏

打造运营商实时分析平台——浩鲸科技 ByConity 应用实践

借助 ByConity 的能力,WhaleHouse 成为一款极速全场景 MPP 企业级数据库产品,具备水平在线扩缩容,兼容 MySQL 和 ClickHouse 等语法协议,提供全面向量化引擎与多种数据源联邦查询等重要特性,致力于在全场景 OLAP 业务上为用户提供统一的解决方案,适用于对性能、实时性、并发能力和灵活性有较高要求的各类应用场景。传统的 MPP 的数据库很困难扩缩容,例如 ClickHouse 和 GP,如果扩展主机,则会导致数据的重新分布,造成生产环境业务中断。原始数据包含数以千计的表。
原创
发布博客 2024.08.01 ·
693 阅读 ·
17 点赞 ·
0 评论 ·
8 收藏

字节跳动开源多云多集群管理引擎 KubeAdmiral v1.0.0 发布!

KubeAdmiral 是字节跳动于 2023 年 7 月正式开源的多云多集群管理引擎,它孵化于字节跳动内部,从上线至今一直强力支撑抖音、今日头条等大规模业务的平稳运行,目前管理着超过 21 万台机器、超过 1000 万 Pod。自正式开源以来,KubeAdmiral 自身也经历了不断发展和完善,在系统功能、扩展性、稳定性和运行效率均有大幅提升,也吸引了业界最终用户的使用和贡献。
原创
发布博客 2024.08.01 ·
1175 阅读 ·
28 点赞 ·
0 评论 ·
5 收藏
加载更多