- 博客(295)
- 收藏
- 关注
原创 Unit 3 Q-Learning 简介
深入探讨强化学习(Reinforcement Learning, RL)方法中的一种:基于值的方法(value-based methods),并学习我们的第一个强化学习算法:Q-Learning。
2025-06-12 12:29:28
658
原创 Unit 2 训练你的第一个深度强化学习智能体 LunarLander-v3
训练一个深度强化学习智能体——一个月球着陆器智能体,它会学习如何在月球上正确着陆 🌕,并且使用深度强化学习库 Stable-Baselines3 来训练该智能体。
2025-06-10 18:48:07
698
原创 构建端到端 MCP 应用程序
本文介绍了如何从零开始构建一个端到端的MCP(模型上下文协议)应用程序。主要内容包括:使用Gradio创建情感分析服务器,通过TextBlob实现情感分析功能,并同时提供网页界面和MCP协议两种访问方式
2025-06-05 18:14:40
612
原创 模型上下文协议(MCP)简介
模型上下文协议(MCP)为AI模型与外部工具/数据源提供标准化连接方案,解决了传统M×N集成模式的效率问题。通过客户端-服务器架构,MCP将复杂集成简化为M+N模式,主机应用通过MCP客户端连接服务器端获取四大核心能力(工具、资源、提示、采样)。该协议显著降低开发维护成本,提升AI系统互操作性,使模型能够动态获取外部信息与功能,克服训练数据局限,推动实用AI应用发展。典型应用场景包括代码解释器调用、文档查询等。
2025-06-03 18:31:28
1009
原创 浅入浅出 GRPO in DeepSeekMath
GRPO 通过在生成组内进行比较来直接评估模型生成的响应,以优化策略模型,而不是训练单独的价值模型,这种方法显著降低了计算成本。例如,在数学推理中,可以通过将响应与基本事实进行比较来轻松验证响应的正确性。GRPO对于数学推理任务特别强大,因为在数学推理任务中,正确性可以得到客观验证。与需要单独奖励:模型的传统 RLHF 方法相比,GRPO 方法允许更高效的训练。
2025-04-11 18:03:52
693
原创 旋转机械故障诊断挑战赛——TOP1方案大公开
构建故障诊断模型,利用振动及声音数据对外圈点蚀、滚动体点蚀、转子不对中等故障进行检测。模型主干网络为ResNet18(去掉最后一层),只采用了其结构并未使用其权重,并在模型结构上做了小部分改动,同时在模型的损失函数上也做了一些修改,增加预适应损失,从而实现了目标域数据到源域的完美迁移,下面是模型细节。
2024-10-24 17:47:53
1025
原创 如何从零开始训练一个语言模型
介绍语言模型的训练过程,主要包括:数据集介绍(包含预训练数据和微调数据),数据的预处理,模型训练和微调,**但不涉及对齐阶段(RLHF)**
2024-04-10 18:04:43
1643
4
原创 声音克隆指南
本文是该系列的第一篇,采用倒序的方式,先从推理过程开始介绍人声克隆的工作流,以及各个模型的功能,之后再去详细介绍各个模型,因此不涉及具体的使用方法,这个官方文档里面已经讲的很清楚了,所以本文主要聚焦于整个项目中对音频数据的预处理、特征提取和最终的推理过程(音频生成的过程)进行介绍,最后放上我制作的两段音频,给大家看看效果。
2023-06-27 17:47:09
7150
4
原创 基于Transformer语言模型:GPT-2
Transformer是Google在2017年提出的一种新型模型架构。它以自注意力机制取代传统的RNN和CNN对序列数据的建模,它在机器翻译、语言理解等任务上显示出强大的表示能力,目前已经成为自然语言处理领域的主流框架之一。Transformer的基本结构包含一个编码器(Encoder)和一个解码器(Decoder)。编码器用于编码输入序列,解码器用于根据编码器的输出生成输出序列。它们的结构非常相似,都包含N个相同的层(Layer)。
2023-06-02 18:45:00
2389
6
原创 因果词袋语言模型:Causal BoWLM
causal bag of words language model是指考虑词序信息的词袋模型。它与传统的词袋模型相比,不仅考虑单词的频率信息,还考虑单词之间的顺序关系。
2023-06-01 17:01:16
661
原创 基于循环神经网络的语言模型:RNNLM、GRULM
RNNLM首次提出是在《Recurrent neural network based language model》这篇非常重要的神经网络语言模型论文种,发表于2010年。
2023-05-31 23:23:44
1262
1
原创 神经概率语言模型:NPLM
本文主要参考《A Neural Probabilistic Language Model》这是一篇很重要的语言模型论文,发表于2003年。不同上下文长度的生成效果。
2023-05-31 10:16:45
1433
原创 统计语言模型:Bi-gram
本文通过使用一小部分的中文语料,训练一个Bigrams模型,然后使用Bigrams模型以自回归的方式生成一段中文文本,纯粹为了学习和娱乐,因为Bigrams为了得到较好的结果一般需要数以亿计的词汇才可以,本文采用的训练数据约有几千条梗文。Bigrams(二元语法模型),是一种简单易实现但实际应用价值有限的统计语言模型,是N-gram的一个特例。与它们构成的二元组合概率相同。的前提下,出现某个字符。即:在给定前一个字符。
2023-05-30 18:30:24
2640
原创 提示工程L6:内容扩展
扩展是将短文本(例如一组指令或主题列表)扩展为较长的文本(例如有关某个主题的电子邮件或文章)的任务。这有一些很好的用途,比如如果你将大型语言模型用作头脑风暴的伙伴。但我也想承认一些有问题的用例,例如如果有人使用它,他们生成大量的垃圾邮件。
2023-05-15 17:53:28
1587
原创 提示工程L5:内容转换
大型语言模型非常擅长将其输入转换为不同的格式,例如将一种语言中的文本输入并将其转换或翻译成另一种语言,或帮助拼写和语法矫正,或者甚至转换格式,例如输入HTML并输出JSON。
2023-05-12 18:42:44
1397
原创 提示工程L4:主题推断
推断可以看作是模型接受文本作为输入并进行某种分析的任务。因此,这可能涉及标签提取、内容理解和情感分析等。如果你想要从一段文本中提取情感,无论是积极的还是消极的,在传统的机器学习工作流程中,你需要收集标签数据集、训练模型、然后部署模型并进行推断。这样做可能效果不错,但需要完成很多繁琐的工作。而且对于每个任务,你都需要训练并部署单独的模型。大语言模型的优势是,对于许多这样的任务,你只需要编写提示即可开始生成结果。极大地提高了应用开发的速度。
2023-05-12 14:29:38
872
原创 大语言模型(LLM)和基于人类反馈的强化学习(RLHF)
语言模型如此伟大和神圣,回答问题,如此快速,如此精细。从科学到艺术,它们像星星一样闪耀,让人类看起来没有那么远。
2023-05-09 17:57:14
5418
原创 gensim训练word2vec,记录和打印每个epoch的Loss
记录和打印gensim训练word2vec过程中,每个epoch的损失。
2023-04-20 10:30:41
626
1
原创 NLP:训练一个中文问答模型Ⅰ
本文基于经典的NMT架构(Seq2Seq+Attention),训练了一个中文问答模型,把问题到答案之间的映射看作是问题到答案的翻译。基于Tensorflow 2.x实现,分词采用了jieba,在中文词汇粒度上训练模型。
2023-03-13 17:09:25
4264
26
原创 生成对抗:Pix2Pix
生成对抗网络还有一个有趣的应用就是,图像到图像的翻译。Pix2Pix就是实现图像转换的生成对抗模型,但是Pix2Pix中的对抗网络又不同于普通的GAN,称之为cGAN,全称是:conditional GAN。一个大规模数据集,其中包含来自50个不同城市的街景中记录的各种立体视频序列,除了更大的20,000个弱注释帧外,还具有5000帧的高质量像素级注释。数据集中的每一个样本都由一对图像组成:原始街景和像素级分割结果,下面的实验把左边作为输入,把分割的结果作为输出,训练一个实现街景分割的生成模型。
2022-12-28 18:57:31
2405
原创 生成对抗:少样本学习
高质量的数据往往是稀缺的和昂贵的。好消息是,自从GANs问世以来,这个问题得到妥善解决,我们可以通过GAN来生成高质量的合成数据样本帮助模型训练。通过设计一个特殊的DCGAN架构,在只有一个非常小的数据集上训练分类器,仍然可以实现良好的分类效果。
2022-12-27 16:57:38
1295
原创 生成对抗:DCGAN
GANs有两个模型组成,一个是生成器,用于训练生成假的数据,另一个是判别器,用于预测生成器的输出结果。其中生成器提供训练数据给判别器,提高判别器的准确率。判别器提供生成样本的预测结果,给生成器提供优化的方向。其实在1990年前后,对抗的思想就已经应用于无监督人工神经网络领域,通过最小化另一个程序最大化的目标函数来求解问题。生成器的输入通常是一些随机向量,然后去生成接近真实的训练数据。
2022-12-27 16:32:58
2745
1
原创 超分辨 :SRCNN
通过卷积神经网络提升图像的分辨率,本文采用一个简单的模型来实现对图片画质提升,测试数据来自《office》中的部分剧照,由于画面原始尺寸较大,所以是对原始画面切片后的每一片进行分辨率提升,然后在重组,训练数据也是基于每个图片的切片(Patch)进行训练。
2022-10-21 17:58:08
1805
原创 编码器 :CNN Autoencoder
DigiFace-1M 数据集是一个包含 100 多万张用于人脸识别的合成人脸图像的集合,使用其中一部分。很诡异,适合制作恐怖图片生成器。
2022-10-21 14:58:05
1590
原创 画风迁移:Style Transfer
风格迁移首次提出来自这篇论文:。文中作者提出了一个假设:图像的内容(content)和风格(style)可分离。在一个收敛的深度神经网络中,例如VGG19、Inception等等中,1.图像的内容(content)信息主要保留在模型每层输出中。内容重建:基于模型浅层输出矩阵重建图像可以很好的还原图,基于模型深层输出矩阵重建的图像只能还原图像的整体轮廓,但是细节是缺失的。风格重建:基于模型多个不同层次的输出(由浅到深)重建图像,不同尺度输入越多,图像重建的风格跟原图越匹配,但是全局排列信息丢失。
2022-10-10 09:58:36
1322
原创 窥探神经网络:Deep Dream
通常我们通过使用大量的标记数据训练神经网络模型,以图像识别模型为例,模型通常由多个卷积层堆叠而成,中间还有一些池化和激活的操作,每一个图像从输入层到输出层,要经过很多层的“处理”。尽管模型表现良好,但是我们并不了解,模型到底从数据中学到了什么,或者图像中的哪些模式被模型检测到了,并导致了最终得到正确的分类。向网络输入任意的图像,然后选择某一层的输出(激活)计算其梯度,通过梯度信息修改图像增强网络模型检测到的任何东西,进而放大模式。以InceptionV3模型为例,可视化模型的检测结果。
2022-10-07 12:18:16
619
原创 MCS:离散随机变量——Poisson分布
当事件在指定的时间间隔内(单位时间),以固定平均瞬时速率(平均发生次数)θ发生,那么描述这个单位时间内事件发生次数的变量就是泊松变量。泊松分布适合于描述单位时间内随机事件发生的次数 ......
2022-06-26 21:57:22
668
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人