weixin_42001089-CSDN博客

（1）模态、任务的大统一是趋势，这个方向段时间内应该还会继续有很多工作，甚至把语音一款融合进来。但是大的框架应该是相同的即【输入】每个模态（任务）可能有自己对应的encoder进行分别编码【主框架】主框架应该都还是用LLM，毕竟他的推理能力强，当然这里可以有各种花样比如dense、moe等等。但大概率都是复用目前一些训练好的强大推理能力的参数【输出】每个模态（任务）可能有自己对应的encoder进行分别解码。（2）数据层面也是非常非常重要，尤其是各种多摸交叉数据的获取。

2025-05-31 11:12:27 899

原创最新最强的TTS语音合成技术来了！

最强的TTS语音模型

2025-05-24 22:47:24 748

原创能理解1万帧长视频的大模型！

长视频理解大模型！

2025-05-18 10:14:00 651

原创强化学习强强联合推理和工具调用能力

（1）强化学习好就好在仅需要知道最终答案就可以训练了，而不需要精心准备类似sft那些需要中间推理结果的数据，所以当你只有正确答案而没有中间结果时，强化学习不失为一个好的手段，当然也有人说可以蒸馏中间更大模型的推理结果进行sft，或者本身已经有了中间结果的sft数据，那这个时候是该sft还是强化学习呢？这个笔者也没有定论，业界一般认为后者学出来的泛化性会高一些，前者学习的效率会更高，但最终哪个好，还需在你自己的领域实际试一试。

2025-05-10 13:57:01 1045

原创一个demo来手把手复现DeepSeek R1

关于其技术报告，笔者之前已经简单介绍过一次，感兴趣的小伙伴可以穿梭或者可以随便搜索其他博主的解读查漏补缺，现在网上已经有很多很好的解读了，总之多看看，会有不同的理解。之前是理论学习，今天我们就实际动手来训练一下，具体来说我们只关注最吸引人的一块：强化学习。关于目前市面上的公开复现也已经有很多了，比如：笔者本次基于的是huggface的open-r1，其底层用的是trl库，不过open-r1官方的复现demo是MATH-lighteval，其中很多人没有复现出来。

2025-02-10 17:03:33 1465 1

原创端到端实时语音交互模型

（1）如何将文本能力能实时迁移到端到端的语音能力（注意不是走级联而是端到端），换句话说我已经有了一个很好的文本数据（具备做某一任务的能力），如何将其迁移到端到端语音这种更便捷的交互是一个不错的研究方向。（2）语音交互这里除了需要理解关注内容本身外，还需要兼顾感情、语速等acoustic information，该部分数据在paper中大部分是通过合成来获取的，进而再将该部分能力训练到端到端模型。

2025-02-02 11:17:53 1469

原创 deepseek系列学习

快来看看deepseek的黑科技

2025-01-30 21:58:24 3357 1

原创基于Qwen2-VL多模态大模型比赛实践

通过本篇我们快速学习了如何使用Qwen2-VL来训练自己的业务，如果大家有类似的需求，可以动手尝试啦～，快去试试吧！咱们下期再见！

2024-12-15 18:10:05 2025 3

原创快速上手文生图sd3.5模型

本篇只是带大家快速尝试sd，入个门，sd还有很多东西可以折腾比如图生图等等，训练推理量化等等，大家感兴趣的话可以积极探索。后面有时间笔者会再出一篇关于FLUX模型的实践，其是另外一个开源的文生图模型，效果同样强劲。

2024-11-23 11:33:48 965 1

原创再论大模型做内容消费

大模型可以互动写小说了？

2024-09-07 16:02:29 1250

原创提升大模型内容创作能力

（1）对于短视频的创作，镜头等描写很关键，而且只写了一些关键人物等等，脚本剧情本身的冲击感不强，而对于创作小说来说文字本身的刺激感更关键，所以根据最终产品形态的不同侧重点不同，那么可以利用挖掘的数据源也不一样。（2）AIGC本身还是做内容消费，如果模型能够持续不断的创作好内容（不论是搞笑、段子等等），那都可以有一席之地！

2024-08-24 12:03:45 1587

原创自动进化高质量sft数据

怎么做好sft数据系列又来了！！

2024-08-17 10:58:06 1587

原创该如何调好数据混合比例训练大模型？

论文的核心结论和实验图标就算给大家展示完了，更多图表和细节可以看原论文的正文和附录。那么返回头来看，这篇paper的结论怎么指导我们在实际工作中落地呢？这篇论文的更多价值在于给了我们一个定心丸即告诉我们最好的混合比例是存在的且是可以被预测的。但是具体是多少是没有一个定论的，不同domain的具体Scaling Law是不一样的，也就是说看完这篇paper不等于你直接就能得到一个确切的混合比例用在你的domain。它只是给了定性的结论和一些趋势（比如更大的模型通常会咋样等等）。

2024-07-28 10:28:34 1647

原创如何增强大模型多轮对话指令跟随能力

提升大模型的多轮对话能力

2024-07-21 14:32:39 3322

原创大模型精细化对齐之step-dpo

如何精细化调教大模型

2024-07-20 19:14:25 2109

原创最新视频理解大模型之MiniGPT4-video

视觉大模型

2024-04-13 17:52:20 3625

原创一览大模型长文本能力

大模型长文本能力都涉及到哪些技术点？

2024-02-16 20:02:51 1361

原创大模型：我也会自监督学习～

大模型自监督学习

2024-01-20 11:33:50 2000

原创做数据关键步骤：怎么写好prompt？

写好prompt就等于成功了一大半！

2023-12-30 11:27:42 1380

原创 openai最新探索：超级对齐是否可行？

来看看openai的最新对齐技术

2023-12-23 17:02:20 549

原创如何自动筛选高质量的指令微调数据喂给大模型？

如何得到高质量的SFT数据？

2023-12-09 19:21:37 3642 2

原创大模型AI Agent 前沿调研

基于大模型的AI 智能体前沿技术

2023-11-23 12:28:02 1286

原创怎么更好的训练一个会数学推理的LLM大模型呢？

训练一个更擅长推理的大模型

2023-09-16 18:09:03 1241

原创 chatgpt官方支持微调了！

openai这一波实属厉害，它的基座模型天花板本来就很高，而且我们可以看到官方介绍的微调样本数量其实需要的很少就可以得到不错的效果，在这种情况下，其他模型至少目前应该还是很难竞争的。不过还有一个老问题没解决就是数据的安全性，不论是调用api还是微调，用户数据都是要最终流向openai的，这对安全性要求高的用户来说还是不可行，这个时候训练自己的本地私有化模型还是有必要的。另外我们也可以借鉴学习一下其提高的迭代数据质量&数据数量等实战经验用以自己的训练开发中。

2023-08-23 11:28:31 816 1

原创从头预训练大模型实践经验

本篇给出了一些宝贵的经验，同时我们也看到如果从头开始训练一个大模型确实是一个浩大的工程，会遇到许多问题，是一个不断摸索和实验的过程，同时本篇也提出了另外一个很有趣的话题就是模型参数量和数据量的关系，到底是需要更大的模型更小的数据量，还是说模型还没有训练充分，其实需要增加数据量，作者也在附录提了一些OpenAI给的一些建议，不过总的来说，具体定量的分析现在还没有结论，但一个基本的大模型和海量数据是肯定的需要的了。

2023-08-21 12:31:19 1584

原创大规模SFT微调指令数据的生成

怎么自动化生成SFT数据？

2023-08-17 13:05:57 2228

原创推荐和搜索系统的多样性研究综述

前言检索结果的多样化是检索系统的一个重要研究课题，其可以满足用户的各种兴趣和供应商的平等公平曝光。然而，检索系统中（搜索与推荐领域）的多样性研究缺乏一个系统的汇总，并且研究点相对零散。本次介绍的paper中，首次提出了一个统一的分类法，用于对搜索和推荐中的多样化指标和方法进行分类，这也是检索系统中研究最为广泛的两个领域。全文较长，感兴趣的小伙伴建议先收藏～论文链接：https://arxiv.org/pdf/2212.14464.pdfintroduction随着信息的爆炸式增长，检索系统越来越

2023-01-27 12:16:52 1195 2

原创视频序列对比学习

前言视频embedding化也即表征有很多实际的应用场景，比如文本-视频 pair的检索等等。由于视频一般来说较长，所以对于给定的一段话，其中的某些sentence句子一般对应着视频中某几个clip片段，之前常规的做法都是去匹配所有的sentence-clip pairs对。但是这种单元级别匹配的做法会天然的忽略掉全局的时间序列，这样就在一定程度上限制了泛化性，比如对于一些背景相似的视频，通常会出现一种匹配错误的情况（如下图(a)(b)在画面视觉上很相似，但是分别对应着文本(1)(2)），为此本文提出了

2023-01-07 11:44:11 1035

原创将扩散模型应用到文本领域

前言扩散模型在文生图领域可谓是大显身手，效果棒棒～每当一个idea有效之时，便会有更多相关的研究跟进尝试，今天就给大家介绍一篇将扩散模型应用到文本生成领域的工作，这也是一篇比较新的paper，其中还用到了梅西在2022世界杯表现的例子。大家可以重点借鉴看看作者是怎么把扩散这一idea揉进到NLP的，最好看看能不能从中找到一些启发进而把扩散这一idea用到自己的领域试试～截止笔者写这篇博客的时候，作者的代码还没有放出来，不过paper说了在不久的将来会开源出来，另外笔者之前也写过一篇关于扩散模型代码解

2022-12-24 13:57:47 1552 2

原创基于预训练和对比学习的新意图发现

前言从对话人的语句中发现新意图是一个研究方向一般来说就是对句子通过聚类来解决这一问题，所以这里通常会涉及到两个问题：（1）怎么表征好一个句子（2）怎么更好的聚类今天就给大家介绍本篇～，对了，关于新意图类的相关的paper，笔者之前也介绍过一篇进行了汇总，感兴趣的小伙伴可以穿梭：《新类识别/领域自适应-聚类》：https://mp.weixin.qq.com/s/A8QVahx__K_GN1xTXjlaHg本次介绍的：paper：https://aclanthology.org/2022.a

2022-12-18 14:01:28 634

原创扩散模型代码剖析

前言相信大家对扩散模型早有耳闻，其着实大火了一把，效果也确实是好。今天写这篇博客的主要动机就是想真正进入到代码层面去看看其到底是怎么实现的。其实在看完代码后，会觉得其实现的非常简单，而且也会对原理的理解有一个更好的正反馈。多说一句，在扩散模型能够生成这么惊艳的图片大背景下，已经有大批研究员悄然开始了研究生成视频的方向，笔者之前也写过一篇，感兴趣的可以穿梭：https://zhuanlan.zhihu.com/p/570332906另外其实网上还有很多扩散的代码，大体上核心的地方都一样，笔者在文末也

2022-12-14 14:58:25 3255 3

原创最近火爆了的对话ChatGPT

前言相信最近小伙伴们已经被ChatGPT的惊艳效果刷屏了，之前笔者也介绍过一些对话方向的工作，感兴趣的小伙伴可以穿梭：对话系统最新综述II https://zhuanlan.zhihu.com/p/446760658在对话系统中建模意图、情感: https://zhuanlan.zhihu.com/p/468317109对话模型背后可以做更多事: https://zhuanlan.zhihu.com/p/458097616但今天要介绍的ChatGPT可以说是非常值得一看的，其不但能够回答日常的一些

2022-12-07 15:55:13 6041

原创总结一些 spark 处理小trick

前言最近做了很多数据清洗以及摸底的工作，由于处理的数据很大，所以采用了spark进行辅助处理，期间遇到了很多问题，特此记录一下，供大家学习，。由于比较熟悉python, 所以笔者采用的是pyspark，所以下面给的demo都是基于pyspark，其实其他语言脚本一样，重在学习思想，具体实现改改对应的API即可。这里尽可能的把一些坑以及实现技巧以demo的形式直白的提供出来，顺序不分先后。有了这些demo，大家在实现自己各种各样需求尤其是一些有难度需求的时候，就可以参考了，当然了有时间笔者后续还会更新一

2022-11-19 10:01:59 1496

原创百度最强中文AI作画大模型

前言最近文生图领域的发展可谓是分生水起，这主要是得益于最近大火的扩散模型，之前笔者也写过一篇关于文本生产3D模型的文章，大家感兴趣的可以穿梭：https://zhuanlan.zhihu.com/p/570332906今天要给大家介绍的这一篇paper是百度最新的文生图佳作：ERNIE-ViLG 2.0，其在diffusion的model基础上进行了两方面设计：融入语言和图像知识进行增强、混合降噪专家网络。ERNIE-ViLG 2.0目前在文本生成图像公开权威评测集 MS-COCO取得了SOTA,

2022-10-30 15:49:43 4477 1

原创音乐生成文本

前言今天给大家介绍一篇音乐生成文本的paper，具体的是生成描述当前这个音乐的文本，同时还可以学一下其中作者设计的一个对比学习，笔者也贴了一下自己对其基本的代码实现，感兴趣的小伙伴可以收藏一下～论文链接：https://arxiv.org/pdf/2210.00434.pdf硬广哈哈，在开始之前，如果有小伙伴对多模态感兴趣，笔者之前也写过几篇，大家感兴趣也可以看看，不过都是关于图文的：https://zhuanlan.zhihu.com/p/435697429https://zhuanlan.z

2022-10-08 16:55:49 1189

原创太牛了：文本直接生成视频

前沿最近在多模态有两篇非常惊艳的工作：一篇是Facebook母公司META在9月30号放出来的Text-to-Video、一篇是Google的Text-to-3D；今天我们来看看第一篇即根据文本直接生成视频，注意不是生成图像而是生成视频！！！这个跨越可以说是非常巨大的。论文链接：https://makeavideo.studio/Make-A-Video.pdfdemo大家可以去如下链接先感受一波生成的demo，非常有趣，看完后说不定更有动力学习了，哈哈哈：https://make-a-video

2022-10-03 13:58:32 9062 5

原创考虑长短期兴趣和内外站信号的推荐

前言最近在看一些cross-domain推荐系统的前沿论文，之前的文章也给大家介绍过一些了，感兴趣的小伙伴可以穿梭看之前的内容，比如：https://zhuanlan.zhihu.com/p/556102767https://zhuanlan.zhihu.com/p/560783003今天我们继续介绍这个领域的一篇paper，全文较长，涉及的知识点也较多，对本期内容感兴趣的同学建议先收藏，慢慢消化。一个优秀的推荐系统是要能够同时抓住用户的长期和短期兴趣的，而且能够利用好各个源的用户行为数据的，我们

2022-09-16 16:11:50 943

原创利用文本结构知识增强预训练模型的问题生成

前言问题生成任务简单来说就是给定一篇文章passage和一个对应的答案answer来自动生成一个模型，它的应用场景也非常的多，笔者之前也写过一篇有关问题生成的文章，感兴趣的小伙伴可以看看：QA4QG: 一个多跳问题生成任务模型：https://zhuanlan.zhihu.com/p/467842564今天要介绍的这篇paper是基于预训练模型做的，不过它的发力点是说之前很多基于预训练模型做的工作都没有考虑文章结构，为此作者针对性的提出设计了两个模块来解决，最后在SQuAD数据集上取得了很好的效果论

2022-09-12 22:09:41 1128

Scala安装包

pyltp wheel安装包（含py35,py36）.zip

NotoSansHans-Regular.otf&DroidSansFallback;.ttf

TensorFlow-inception

OPENGL ES 3.0编程指南 (英文版+中文版)

mnist数据集

空空如也