kebijuelun
码龄7年
关注
提问 私信
  • 博客:191,352
    191,352
    总访问量
  • 139
    原创
  • 13,713
    排名
  • 5,608
    粉丝
  • 480
    铁粉
  • 学习成就

个人简介:人工智能领域从业者,具有大模型、计算机视觉、自动驾驶等领域研发经验。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-09-26
博客简介:

kebijuelun的博客

查看详细资料
  • 原力等级
    成就
    当前等级
    5
    当前总分
    1,358
    当月
    26
个人成就
  • 获得679次点赞
  • 内容获得44次评论
  • 获得1,116次收藏
  • 代码片获得863次分享
创作历程
  • 28篇
    2024年
  • 57篇
    2023年
  • 17篇
    2022年
  • 12篇
    2021年
  • 8篇
    2020年
  • 13篇
    2019年
  • 2篇
    2018年
  • 3篇
    2017年
成就勋章
TA的专栏
  • paper_reading
    102篇
  • book reading
    7篇
  • quantitative investment - 量化投资
  • 图像处理matlab
    1篇
  • 深度学习环境配置
    1篇
  • 数据集制备
    1篇
  • linux
    1篇
  • 工具
    1篇
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

181人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Movie Gen: A Cast of Media Foundation Models (Meta 92 页技术报告详解)

2024 Meta 发布的 30B 参数量的视频生成模型 Movie Gen 以及 13B 参数量的 Movie Gen Audio 视频配乐模型,支持生成高保真图像、视频和音频,同时也具备编辑和个性化视频的能力。Movie Gen 的技术报告是视频生成领域目前介绍技术细节最详细的文章。
原创
发布博客 2024.11.04 ·
548 阅读 ·
31 点赞 ·
0 评论 ·
16 收藏

RIFE: Real-Time Intermediate Flow Estimation for Video Frame Interpolation

2022 年旷视出品的实时视频帧插值工作。提出 RIFE 轻量级视频插帧模型,主要设计了一种基于中间流估计的视频插帧方法,另外设计了一种特权蒸馏算法来提升模型的性能和训练稳定性。
原创
发布博客 2024.10.06 ·
1041 阅读 ·
8 点赞 ·
0 评论 ·
21 收藏

W.A.L.T: Photorealistic Video Generation with Diffusion Models

2023 斯坦福大学和 google 联合出品的视频生成工作,提出了 Window Attention Latent Transformer (W.A.L.T),一种基于Transformer的潜在视频扩散模型(LVDMs)方法。训练了由三个模型组成的级联,包括一个基础的潜在视频扩散模型和两个视频超分辨率扩散模型,以每秒 8 帧的速度生成 512×896 分辨率的视频,并在 UCF-101 基准测试上报告了最先进的 FVD 得分。
原创
发布博客 2024.09.03 ·
868 阅读 ·
26 点赞 ·
0 评论 ·
24 收藏

李沐讲座:大语言模型的实践经验和未来预测 | 上海交大

本文记录了李沐关于语言模型与职业生涯分享的精彩讲座,涵盖了大语言模型的核心要素、工程实践中的挑战,以及演讲者个人职业生涯中的心得体会。
原创
发布博客 2024.09.01 ·
1278 阅读 ·
24 点赞 ·
0 评论 ·
11 收藏

VEnhancer: Generative Space-Time Enhancement for Video Generation

2024 年港中文和上海人工智能实验室出品论文。介绍了 VEnhancer,支持视频的超分辨率和插帧。使用 VEnhancer,现有的开源最先进文本到视频方法,VideoCrafter-2,在视频生成基准测试——VBench 中达到了第一名
原创
发布博客 2024.08.30 ·
820 阅读 ·
22 点赞 ·
0 评论 ·
8 收藏

FlexAttention 详解:PyTorch 代码实现多种 Attention 变体

FlexAttention 提供了一个灵活的 API,允许使用几行惯用的 PyTorch 代码实现多种 Attention 变体
原创
发布博客 2024.08.16 ·
998 阅读 ·
19 点赞 ·
0 评论 ·
27 收藏

Learning Multi-dimensional Human Preference for Text-to-Image Generation

2024 年快手提出的文生图评测方案,提出了多维度偏好评分(MPS),这是首个用于评估文本生成图像模型的多维度偏好评分模型。
原创
发布博客 2024.08.13 ·
1084 阅读 ·
11 点赞 ·
0 评论 ·
27 收藏

无需训练的 Diffusion MoE 方案 (SegMoE): Segmind Mixture of Diffusion Experts

2024 年 Segmind 研发的全球首个用于 Stable Diffusion 的开源专家混合(Mixture of Experts,MoEs)框架。这是一种能够将多个稳定扩散模型动态组合在一起的框架,**无需训练**即可在短时间内创建更大的 MoE 模型。
原创
发布博客 2024.08.09 ·
1088 阅读 ·
23 点赞 ·
0 评论 ·
15 收藏

pytorch 自动微分以及自定义 torch.autograd.Function 教程

本文介绍 PyTorch 自动微分以及自定义 `torch.autograd.Function` 的方法。通过 `torch.autograd` 和自定义 `autograd.Function`,可以灵活地实现复杂的前向与反向传播逻辑。
原创
发布博客 2024.08.09 ·
817 阅读 ·
9 点赞 ·
0 评论 ·
22 收藏

Scaling Diffusion Transformers to 16 Billion Parameters

2024 年昆仑万维发表的 DiT-MoE 工作。DiT-MoE 用稀疏的 MoE 层替代了 DiT 中一部分密集的前馈层,其中每个图像块的 token 都会被路由到部分专家,即 MLP 层。此外,我们的架构包含两个主要设计:共享部分专家以捕获通用知识,以及专家级平衡损失以减少不同路由专家之间的冗余。进一步将模型参数扩展到 165 亿,而只激活了 31 亿个参数,在 512×512 分辨率下达到了新的最先进 FID-50K 分数 1.80。
原创
发布博客 2024.08.06 ·
1006 阅读 ·
27 点赞 ·
0 评论 ·
22 收藏

中国居民膳食指南书籍知识点汇总

本文以《中国居民膳食指南》书籍的内容作为基础,总结了**正常人群膳食**相关内容要点,希望能够帮助读者建立科学的膳食观念,形成健康的生活习惯。
原创
发布博客 2024.07.28 ·
917 阅读 ·
20 点赞 ·
0 评论 ·
11 收藏

FIT: Far-reaching Interleaved Transformers

2023 年 google deepmind 提出的 FIT 网络架构,具有高效的自注意力和自适应计算,可以作为编码器、扩散解码器或自回归解码器使用。FIT 能有效降低计算量的同时保持模型的精度。值得注意的是,FIT展示了在千兆级数据(如6400×6400图像或160K tokens(经过补丁标记化后))上进行端到端训练的潜力,在16GB内存容量下,无需特定优化或模型并行化。
原创
发布博客 2024.07.24 ·
911 阅读 ·
20 点赞 ·
0 评论 ·
24 收藏

Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

2024 年 Snap Inc 提出的 Snap Video 方案。受 FIT 的启发提出了一种基于 transformer 的级联架构,相比于 Unet 有更好的可扩展性。同时针对视频生成任务优化了 EDM 中的 noise schedule 设计。根据研究参与者的反馈,Snap Video 在写实性方面与 Gen-2 相当,但显著优于 Pika。
原创
发布博客 2024.07.23 ·
657 阅读 ·
29 点赞 ·
0 评论 ·
23 收藏

月之暗面科技有限公司(Moonshot AI)内推

加入月之暗面 (Moonshot AI),你将有机会参与到前沿的人工智能技术研究与产品开发中。来和 kimi 一起登月吧!
原创
发布博客 2024.07.20 ·
890 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions

2024 腾讯 ARC Lab 文章,提出了 MiraData。MiraData 是大规模、高质量的视频数据集,具有长视频(平均72.1秒)、高运动强度和详细的结构化字幕(平均318字)。同时引入了 MiraBench 用于更好评估视频生成中的时间一致性和运动强度。使用基于 DiT 的视频生成模型 MiraDiT 进行实验,验证相比于当前公开的数据集,使用 MiraData 训练的模型具有更大的运动幅度和运动一致性。
原创
发布博客 2024.07.18 ·
1071 阅读 ·
31 点赞 ·
0 评论 ·
15 收藏

模型(卷积、fc、attention)计算量 MAC/FLOPs 的手动统计方法

理解神经网络中的 MAC(乘累加操作)和 FLOPs(浮点运算)对于优化网络性能和效率至关重要。通过手动计算这些指标,可以更深入地了解网络结构的计算复杂性和资源需求。这不仅能帮助设计高效的模型,还能在训练和推理阶段节省时间和资源。本文将通过实例演示如何计算**全连接层(fc)**、**卷积层(conv)** 以及 **自注意力模块(self-attention)** 的 FLOPs 和 MACs,并探讨其对资源效率、内存效率、能耗和模型优化的影响。
原创
发布博客 2024.07.09 ·
1953 阅读 ·
17 点赞 ·
1 评论 ·
14 收藏

美好生活的 100 条建议

一些简洁明了的人生建议,易于理解,并且能够为日常生活中的各个方面提供实用的指导。
原创
发布博客 2024.07.07 ·
1110 阅读 ·
6 点赞 ·
0 评论 ·
18 收藏

ColossalAI Open-Sora 1.1 项目技术报告 (视频生成)

Open-Sora 是潞晨科技 (ColossalAI) 团队实现的一个致力于高效生产高质量视频的开源项目,旨在让所有人都能够访问先进的视频生成技术。
原创
发布博客 2024.05.25 ·
1202 阅读 ·
17 点赞 ·
0 评论 ·
20 收藏

ColossalAI open-sora 1.0 项目技术报告 (视频生成)

开源工作 open sora 1.0 做到的效果和 sora 还有显著差距,不过其实通过借助开源的 SD VAE 工作等基本把整个视频生成的框架走通了,包括 STDiT、高质量数据生成等各个环节。后续对各个模块进一步更新可以实现更好的效果
原创
发布博客 2024.05.25 ·
847 阅读 ·
17 点赞 ·
0 评论 ·
19 收藏

大模型应用工具 LangChain 入门书籍: LangChain 简明讲义

《LangChain 简明讲义:从 0 到 1 构建 LLM 应用程序》从基础概念到实际操作,对大语言模型和 LangChain 进行了全面的介绍,以便读者深入了解模型的原理和 LangChain 的运作方式。
原创
发布博客 2024.04.14 ·
645 阅读 ·
4 点赞 ·
0 评论 ·
6 收藏
加载更多