AI蜗牛之家-CSDN博客

原创 Skill Creator 全阶段详解

本文摘要： Claude Skill开发流程分为两个核心目录结构：Skill目录存放定义和源码，Workspace目录存放评估结果。完整工作流包含8个阶段：意图捕获、访谈调研、编写SKILL.md、设计测试用例、并行测试、评分聚合、迭代改进、触发优化和打包分发。每个阶段都有明确的目标、输入输出和文件关联，其中特别强调需求澄清的重要性，以及渐进式加载、主动触发描述等设计细节。流程注重从对话历史反向提取需求，区分可测试技能类型，并采用三层渐进式加载机制解决上下文空间限制问题。

2026-05-13 07:30:00 1332

原创 Qwen系列之Qwen3解读：最强开源模型的细节拆解

**Qwen3发了什么？**- 发布了密集型和专家混合（Mixture-of-Experts, MoE）模型，参数数量从 0.6 亿到 235 亿不等，以满足不同下游应用的需求。- 将两种不同的运行模式——思考模式和非思考模式——整合到单一模型中。这允许用户在这些模式之间切换。集成了思考预算机制，为用户提供了对模型在任务执行过程中推理长度的细粒度控制。**训练里面的核心亮点是什么？**训练过程:- **三阶段预训练**：36T的token训练：先30T的4096长度的**通用训练**，再5T的4

2025-06-08 11:59:53 3826

原创 Deepseek系列之deepseek-R1

首次验证了纯强化学习在 LLM 中显著增强推理能力的可行性（DeepSeek-R1-Zero），即无需预先的 SFT 数据，仅通过 RL 即可激励模型学会长链推理和反思等能力。提出了多阶段训练策略（冷启动->RL->SFT->全场景 RL），有效兼顾准确率与可读性，产出 DeepSeek-R1，性能比肩 OpenAI-o1-1217。展示了知识蒸馏在提升小模型推理能力方面的潜力，并开源多个大小不一的蒸馏模型（1.5B~70B），为社区提供了可在低资源环境中也能获得高推理能力的模型选择。

2025-06-06 09:52:55 1941

原创 Deep Search之R1-Searcher系列

深度搜索系列再前期的一些ReAct、Self Refine、CoT-SC相关偏向Prompt工程之后，近期的SFT尤其是RL相关方法工作很多，最近打算对深度搜索近期工作整体整理一下(Search-R1、Search-O1、R1-Searcher、R1-Searcher++、SimpleDeepSearcher名字是真的像啊)。另外人大的相关工作占据了半壁江山~

2025-06-03 10:26:47 1819

原创 Deepseek系列之deepseek-v1

关于deepseek的系列模型，断断续续也看了相关paper，之前也做了部分记录但是一直没发出来，最近打算梳理下deepseek的系列模型，有个系统性的认识，后续可能再补个千问系列，部分细节持续更新~

2025-05-30 11:00:39 1982

原创 RL之ppo训练

Policy-based强化学习优化目标强化学习的优化过程可以总结为：整个优化过程由以上两点交替进行，最终收敛，得到我们想要的最优策略 π∗\pi^*π∗ 和能准确评估它的价值函数 Vπ∗V_{\pi^*}Vπ∗。现在我们知道强化学习的总优化目标是：arg⁡max⁡πθJ(πθ)=Eτ∼πθ[R(τ)]=∑τR(τ)P(τ∣πθ)\arg \max_{\pi_\theta} J(\pi_\theta) = E_{\tau \sim \pi_\theta}[R(\tau)] = \sum_{\tau}

2025-05-11 11:42:41 1128

原创自监督和有监督下的单/双塔模型

1. 自监督1.1.PCL: Peer-Contrastive Learning with Diverse Augmentations for Unsupervised Sentence Embeddings1.2.TRANS-ENCODER 自监督的Sentence Bi & Cross Encoder1.3.Mirror-Bert1.3.1.相关背景1.3.2.方法介绍1.4.Self-guided contrastive learning for BERT sentence represe

2025-01-05 16:39:37 1241

原创 Actions Speak Louder than Words Meta史诗级的端到端推荐大模型落地

推荐系统survey

2024-09-23 19:27:18 2039

原创多模态方法(更新中)

Semantic Representation for Dialogue ModelingPCL: Peer-Contrastive Learning with Diverse Augmentations for Unsupervised Sentence Embeddings深度网络的公理归因 Axiomatic Attribution for Deep NetworksNLU模型的捷径学习行为MoCo: Momentum Contrast 无监督学习深度互学习-Deep Mutual Lear

2023-05-23 08:31:01 1304

原创 mac安装套件

最近需要配置一个新到手的mac，在原来的一些常用工具基础上，也发现了极其好用的几个工具，手记下来~ 持续更新。

2023-04-01 14:02:45 491

原创深度学习被你忽略的细节系列篇——Softmax、LogSumExp和Sigmoid

平时我们基本用pytorch或者tensorflow框架时，基本对特别底层的函数实现关注不多，仅限于知道公式的原理。但是很多大佬往往自己会实现一些源码，在看这些源码时，经常出现各种有点难以理解的代码，本来很简单的东西，莫名其妙的各种转换，化简完之后可能感觉是一样的，这么费劲周折的折腾啥？殊不知还是对底层的实现原理了解少了，虽然有些源码不需要我们从底层造轮子(完全从底层造轮子也影响效率)，但是能理解其原理在我们debug以及看一些源码时不至于太多疑惑(毕竟国外很多大佬都喜欢实现一些底层utils)。

2023-03-02 15:58:11 1936

原创排序之损失函数List-wise loss(系列3)

在pointwise 中，我们将每一个作为一个训练样本来训练一个分类模型。这种方法没有考虑文档之间的顺序关系；而在pariwise 方法中考虑了同一个query 下的任意两个文档的相关性，但同样有上面已经讲过的缺点；在listwise 中，我们将一个作为一个样本来训练。论文中还提出了概率分布的方法来计算listwise 的损失函数。并提出了permutation probability 和top one probability 两种方法。下面会详述这两种方法。

2023-03-01 19:17:20 6367 2

原创 AI顶会accepted papers list

为方便相关paper调研，对相关顶会文章列表和下载地址汇总，会议包括：AAAI、ACL、IJCAI、ICLR、COLING、SIGIR、WSDM、WWW、ICML、KDD、NeurIPS、CVPR、ECCV、ACM MM

2023-02-28 19:57:06 3182

原创预训练语言模型

在ELMO／BERT出来之前，大家通常讲的语言模型其实是根据上文内容预测下一个可能跟随的单词，就是常说的自左向右的语言模型任务，或者反过来也行，就是根据下文预测前面的单词，这种类型的LM被称为自回归语言模型。GPT 就是典型的自回归语言模型。ELMO尽管看上去利用了上文，也利用了下文，但是本质上仍然是自回归LM，这个跟模型具体怎么实现有关系。ELMO是做了两个方向（从左到右以及从右到左两个方向的语言模型），但是是分别有两个方向的自回归LM，然后把LSTM的两个方向的隐节点状态拼接到一起，来体现双向语言模型这

2022-12-04 21:03:33 164

原创数据分析之pandas(进阶)

合并pd.mergepd.merge(left, right, how='inner', on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=True, suffixes=('_x', '_y'), copy=True, indicator=False, validate=None)left: 拼接的左侧DataFrame对象right:

2022-12-03 17:24:25 1154

原创检索场景预训练

语言模型的假设是：p(R=1|q,d)≈p(q|d,R=1)，文档与查询相关的概率约等于在文档相关的前提下，用户输入q的概率。小编认为，其实原理其实跟TF-IDF差不多，计算query和doc的相似度。通过查询似然找出两个set，通过加入对比loss，以及Masked Language Model (MLM) 的loss进行训练，这样可以训练出一个跟BERT等价但是更适合检索场景的预训练模型。

2022-11-03 15:35:25 648

原创排序之损失函数pair-wise loss(系列2)

Ranking Loss被用于很多领域和神经网络任务中（如 Siamese Nets 或 Triplet Nets），这也是它为什么拥有 Contrastive Loss、Margin Loss、Hinge Loss 或 Triplet Loss 等这么多名字的原因。1.Ranking Loss 函数：度量学习像 Cross-Entropy Loss 或 Mean Squear Error Loss 这些 Loss 函数，它们的目的是为了直接预测一个标签或一个值，而 Ranking Loss 的目的是为

2021-08-22 23:36:08 18232

原创排序之指标集锦(系列1)

一、MAP(Mean Average Precision)：单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高)，MAP就可能越高。如果系统没有返回相关文档，则准确率默认为0。只有1和0，1代表相关，0代表不相关。例如：假设有两个主题，主题1有4个相关网页，主题2有5个相关网页。某系统对于主题1检索出4个相关网页，其rank分别为1, 2

2021-08-22 22:56:57 2286

原创 Protobuf从入门到“顺手”

文章目录1.概述1.1.proto格式1.2.proto编译2.支持类型2.1.标量数值类型2.2.枚举2.3.内置封装类型2.3.1. Any类型2.3.2. Oneof 类型2.3.3.Map 映射类型2.4.类型的引用3.python中的一些常用用法3.1.json与message转换4.更多详情和大神帖参考很多项目采用Protobuf进行消息的通讯，还有基于Protobuf的微服务框架GRPC，最近在使用一些框架的时候，顺手梳理了一下protobuf的一些语言特性和一些实用技巧。全文基于最新pr

2021-08-08 23:11:42 1672 1

原创来自鹅厂的面试经验(干货)

文章目录1.面试准备1.1.简历准备1.2.项目梳理1.3.基础知识1.4.算法编程2.面试经验最近各大厂紧锣密鼓地开始了**春季招聘**和**暑期实习**。你是不是也正在准备，但是面试却没有经验，不知道怎么准备呢？蜗牛小编也收到了一些师弟师妹的咨询，我也翻了一下我自己的面试记录和整理的相关资料，这里站在面试者和面试官的角度稍作整理分享给大家，文中最后也给大家提供了一些”**干货资料**“。这里强调一下：所有的分享是建立如何驱动自己更高效地学习知识，更好地表现自己，而不是找出所谓”无中生有“的纯

2021-03-07 12:34:05 1285

原创数据分析之pandas

数据导入pd.read_csv(filename)：从CSV文件导入数据pd.read_table(filename)：从限定分隔符的文本文件导入数据pd.read_excel(filename)：从Excel文件导入数据pd.read_sql(query, connection_object)：从SQL表/库导入数据pd.read_json(json_string)：从JSON格式的字符串导入数据pd.read_html(url)：解析URL、字符串或者HTML文件pd.read_clip

2021-02-08 17:52:51 859

原创 vscode必备配置

目录1.自动化注释工具2.代码格式化与错误检查1.自动化注释工具我用过的比较不错的注释工具koroFileHeader头模板的配置：链接安装后默认快捷键文件头部注释：window：ctrl+alt+i, mac：ctrl+cmd+i函数注释：window：ctrl+alt+t, mac：ctrl+cmd+t2.代码格式化与错误检查推荐使用flake8和yapf分别是用来错误检查和代码格式化参考连接：VS Code | 配置 flake8 和 yapf...

2020-08-30 11:13:25 1435 1

转载 python魔术方法

文章目录1.构造和初始化2.属性访问控制3.描述器对象4.构造自定义容器(Container)5.上下文管理6.对象的序列化7.运算符相关的魔术方法7.1比较运算符7.2.一元运算符和函数7.3.算术运算符7.4.反算术运算符7.5.增量赋值7.6.类型转化8.其他魔术方法9.Python3中的差异看到一篇很不错的文章，之前自己也想整理一下来着，转载该文在Python中，所有以__双下划线包起来的方法，都统称为"魔术方法"。比如我们接触最多的__init__.有些魔术方法,我们可能以后一辈子都不会

2020-07-19 23:04:23 620

原创 c++ tensorflow调用与BERT实战

先贴几个站点，有时间再归纳一下，关于bert的实战，后面也会整理出来reference使用C++调用TensorFlow模型简单说明C++运行TensorFlow模型tensorflow/tensorflow

2020-04-14 14:34:37 2178

原创 Envy（最大值前后缀 +双指针 + 二分）

Envy时间限制:1 Sec内存限制:128 MB提交:312解决:63[提交][状态][讨论版]题目描述今年的 ACM 比赛推出了一个赛后的娱乐活动，所有参赛选手排成一排玩击鼓传花，关于击鼓传花的玩法是这样的：数人或几十人围成圆圈坐下，其中一人拿花（或一小物件）；另有一人背着大家或蒙眼击鼓（桌子、黑板或其他能发出声音的物体），鼓响时众人开始依次传花，...

2020-01-02 10:57:59 1464

原创 docker常用集锦

1.关于dockerdocker是什么？为什么要使用docker？docker的基本原理又是什么？常用命令又有哪些？这些相关概念已经很多大佬整理出来了，具体参见：Docker 入门教程概念+特点+常用命令这可能是最为详细的Docker入门总结原理2.常用命令Notice :下面介绍到的命令中containerID如果不特殊说明，一般都可以用containeName来代替...

2019-12-22 10:24:27 783

原创 NLP之句子相似度之入门篇

文章目录1.基于统计的方法1.1.编辑距离计算1.2.杰卡德系数计算1.3.TF 计算1.4.TFIDF 计算1.5.BM252.基于深度学习的方法2.1.Word2Vec 计算6.参考文献如下在师兄的博文基础上修改：静觅 » 自然语言处理中句子相似度计算的几种方法1.基于统计的方法1.1.编辑距离计算编辑距离，英文叫做 Edit Distance，又称 Levenshtein 距离，是指...

2019-05-10 17:26:46 7383 2

原创 pycharm 基础配置

pycharm是一个相当不错的IDE，但是每次安装新环境之后就比较难受，各种设置需要重新查一遍，这里就不定时整理一点相关设置，也是根据自己的需求整理的，以免下次浪费时间文章目录1.import 红线错误2.设置字体大小1.import 红线错误在用pycharm打开一个项目的时候，很多时候会出现一些红色波浪线，提示错误，但是其实运行是没有问题的，只不过pycharm在检测import的路...

2019-05-10 17:25:31 1677

原创 capsules系列Investigating Capsule Networks with Dynamic Routing for Text Classification

文章目录1.背景介绍2.模型特色3.模型结构4.小结参考1.背景介绍早期对文本建模的成果，已经在文本分类方面取得了一些成功，使用简单的词袋子分类器（Joachims，1998；McCallum等，1998），意味着理解独立单词或N-gram词组的含义是研究复杂模型的必要步骤。因此，这也不奇怪出现了分布式的词语表示法，也就是词嵌入/词向量，已经得到NLP社区的高度关注，解决了在基本层面上应该对什...

2019-04-08 21:29:11 2460 1

原创优化器算法optimizer

文章目录1.相关背景1.1.指数加权移动平均(Exponential Weighted Moving Average)1.1.1.演化与概述1.1.2.公式理解1.1.3.EMA 偏差修正1.1.4.EMA 在 Momentum 优化算法中应用的理解2.递归下降算法2.1.BGD MBGD SGD2.2.Momentum2.3.Nesterov Accelerated Gradient2.4 Ad...

2019-03-27 16:02:04 2878

原创 r-net:machine reading comprehension with self-matching networks

我觉得这篇文章的文笔真的有点不敢恭维，首先向量矩阵的维度不说清楚还能脑补，但是这边前后不同层之间用一样的变量名是什么意思啊(这么说出来会不会被MSRA鄙视，以后的简历都过不了了，ORZ)，本文中尽量避免这种情况。嗯嗯，文章还是不错的^@^文章下载地址：这里先总结下几个特点：同时使用了char-embedding和word-embedding，不同的是char-embedding是通过将...

2019-03-01 12:40:00 1492

原创 capsule系列之Dynamic Routing Between Capsules

文章目录1.背景2.什么是capsule3.capsule原理和结构4.CapsNet模型介绍5.源码解析6.实验结果7.capsule相关论文参考文献capsule在出现之后就除了Hinton老爷子的两个版本之外，还有例如Investigating Capsule Networks with Dynamic Routing for Text Classification这样的新作，可见cap...

2019-02-26 22:38:23 3977

原创 QANet: Combining Local Convolution With Global Self-Attention For Reading Comprehension

文章目录1.概述2.模型结构2.1.Input embedding layer2.2 Embedding Encoder Layer2.3.Context-Query Attention Layer2.4.Model Encoder Layer2.5 Output layer3.数据增强4.源码及训练参考文献博主标记版paper下载地址：zsweet github关于paper，在进入正题之...

2019-02-25 16:15:32 1700

原创 paper:Hierarchical Attention Networks for Document Classification

又是一篇很久之前用到的模型，今天回来整理，发现分类的模型都好简单啊，然后看到模型基于GRU，总觉得有点不想看，因为带时间序列的训练起来太慢了，最进没怎么关注分类的新模型，不过我觉得CNN和transformer结构(self attention)的搭配应该是分类问题的趋势，不过这篇文章后面的attention效果可视化还是不错的~文章目录1.模型概述2.模型详情2.1.Word Encode...

2019-02-24 15:17:27 1197

转载 Reading Comprehension必读paper汇总

文章目录Must-read papers on Machine Reading Comprehension.Model ArchitectureUtilizing Extenal KnolwedgeExplorationOpen Domain Question AnsweringDatasets文章转自thunlp/RCPapersMust-read papers on Machine R...

2019-02-22 11:32:17 4802

原创 Bi-Direction attention flow for machine reading(原理篇)

首先，我们的关注层不用于将上下文段落总结为固定大小的向量。而是针对每个时间步计算注意力，并且每个时间步的注意向量以及来自前一层的表示都被允许流向后续建模层。这减少了由早期汇总造成的信息损失。其次，我们使用无记忆的注意机制。也就是说，虽然我们像Bahdanauet al一样迭代计算时间的注意力。（2015），每个时间步的注意力只是当前时间步的查询和上下文段的函数，并不直接取决于前一时间步的注意...

2019-02-21 15:37:53 2073 4

原创 Highway Networks

文章目录1.前言2.highway network实验结果对比resnet参考资料1.前言目前的神经网络普遍采用反向传播(BP算法)方法来计算梯度并更新w和b参数(其实就是导数的链式法则，就是有很多乘法会连接在一起)，由于深层网络中层数很多，如果每层都使用类似sigmoid这样的函数，它们的导数都小于1，这样在反向传播中可能会导致最初几层的w和b参数更新的幅度非常小或者几乎不更新，也就是我们...

2019-02-20 11:10:44 2372

原创 machine comprehension using match-lstm and answer pointer

又是一篇之前读的paper，最近把之前读的paper整理整理…文章目录前言1.模型概述2.LSTM preprocessing Layer3.match-LSTM4.Answer Pointer Layer4.1.Sequence Model今天的主角又是在斯坦福的SQuAD的基础上，虽然是一篇比较早的文章，但是该文章是第一个在SQuAD上实现的端到端的神经网络(end-end)，对于入门...

2019-02-18 18:46:27 898

原创 tensorflow之dropout

参考文章深度学习中Dropout原理解析墙裂推荐理解dropout深度学习（二十二）Dropout浅层理解与实现tensorflow1.6 的实现代码：def dropout(x, keep_prob, noise_shape=None, seed=None, name=None): # pylint: disable=invalid-name &amp;amp;amp;quot;&amp;amp;amp;quot;&amp;amp;a

2019-02-13 15:30:47 1465

原创 tensorflow之debug和可视化

文章目录1.实用小技巧之InteractiveSession2.logging日志3.tensorboard(summary)3.1.tensorboard 概述3.2.graph3.3.scalar用法2.3.distributions &amp;amp;amp;amp;amp;amp;amp;amp; histogram2.3.1.distributions2.3.2.HISTOGRAMS2.3.2.示例代码2.4.tensorboard 小结参...

2019-02-12 21:08:47 2401

STL整理总结

坦克大战游戏，支持声音，配置等

Redis-x64-3.2.100.msi

C++ API

空空如也