AI大模型前沿研究
软件工程硕士,机器学习&深度学习爱好者,忘记背后,努力面前,向着标杆直跑!
展开
-
『NLP学习笔记』图解GPT3(How GPT3 Works-Visualizations and Animations)
在科技界我们可以看到很多关于GPT-3的新闻。大型语言模型(比如GPT-3)已经展示出让我们惊讶的性能。虽然对于大多数企业来说,这些模型还不能完全可靠地面向客户,但它们展现出的聪明才智无疑将加速自动化的进程以及智能计算机系统的可能性。让我们揭开GPT-3的神秘面纱,了解它的训练方式和工作原理。原创 2024-02-28 16:32:11 · 317 阅读 · 0 评论 -
『NLP学习笔记』图解 GPT-2(可视化 Transformer 语言模型)
今年,我们看到了机器学习令人眼花缭乱的一些应用。OpenAI的GPT-2展现出了惊人的写作能力,其生成内容的连贯且富有感情,超出了我们对目前语言模型的预期。GPT-2其实并不是一种新型架构,他的结构类似于只有解码器的Transformer。GPT-2是一个基于Transformer的巨大的语言模型,并在庞大的数据集上进行了训练。在这篇文章中,我们将看一下是什么构造能让它具有如此性能;我们将深入解析它的自注意力层;最后我们会看一下语言模型之外的仅有解码器的Transformer的应用。原创 2024-02-27 17:09:02 · 720 阅读 · 0 评论 -
『NLP学习笔记』图解 BERT、ELMo和GPT(NLP如何破解迁移学习)
2018年是NLP模型发展的转折点。我们不断探索单词和句子的表示方法,以求能最好地捕捉其中潜在的语义和关系。此外,NLP领域已经提出了一些功能强大的组件式模型,你可以免费下载,并在自己的模型和pipeline中使用它们(这被称为NLP领域的ImageNet时刻,类似的发展在几年前,计算机视觉领域的机器学习也是这样加速发展起来的)。原创 2024-02-26 22:00:48 · 234 阅读 · 0 评论 -
『NLP学习笔记』图解Word2vec(The Illustrated Word2vec)
嵌入(embedding)是机器学习中最迷人的想法之一。 如果你曾经使用Siri、Google Assistant、Alexa、Google翻译,甚至智能手机键盘进行下一词预测,那么你很有可能从这个已经成为自然语言处理模型核心的想法中受益。原创 2024-02-26 18:58:35 · 224 阅读 · 0 评论 -
『NLP学习笔记』隐马尔可夫模型和维特比算法
隐马尔可夫模型(Hidden Markov Model,HMM)是关于时许的概率模型,是一个生成模型,描述由一个隐藏的马尔科夫链随机生成不可观测的状态序列,每个状态生成一个观测,而由此产生一个观测序列原创 2022-12-19 23:38:33 · 369 阅读 · 0 评论 -
『NLP学习笔记』NER任务的CRF-layer的原理
用命名实体识别任务来解释CRF,该文提出了一个使用词和字嵌入的 BiLSTM-CRF 命名实体识别模型。下将以本文中的模型为例来解释CRF层是如何工作的。原创 2022-12-15 23:42:01 · 361 阅读 · 0 评论 -
『NLP学习笔记』长序列预测论文LTSF-Linear解读&实战
长期预测只适用于趋势和周期相对清晰的时间序列。由于线性模型已经可以提取这些信息,我们引入了一组令人尴尬的简单模型,名为LTSF linear,作为比较的新基线。LTSF线性模型用一层线性模型对历史时间序列进行回归,直接预测未来时间序列。我们对九个广泛使用的基准数据集进行了广泛的实验,这些数据集涵盖了各种现实应用:交通、能源、经济、天气和疾病预测。令人惊讶的是,我们的结果显示,LTSF Linear在所有情况下都优于现有的复杂Transformerbased模型,并且通常有很大的差距(20%∼ 50%)。原创 2022-12-12 16:29:45 · 1280 阅读 · 0 评论 -
『NLP学习笔记』工业级自然语言处理spaCy开源库的使用
spaCy是一个NLP领域的文本预处理Python库,包括分词(Tokenization)、词性标注(Part-of-speech Tagging, POS Tagging)、依存分析(Dependency Parsing)、词形还原(Lemmatization)、句子边界检测(Sentence Boundary Detection,SBD)、命名实体识别(Named Entity Recognition, NER)功能。原创 2022-12-05 22:42:26 · 106 阅读 · 0 评论 -
『NLP学习笔记』TextCNN文本分类原理及Pytorch实现
卷积神经网络的核心思想是捕捉局部特征,对于文本来说,局部特征就是由若干单词组成的滑动窗口,类似于N-gram。卷积神经网络的优势在于能够自动地对N-gram特征进行组合和筛选,获得不同抽象层次的语义信息。原创 2022-12-04 16:14:36 · 1233 阅读 · 0 评论 -
『NLP学习笔记』如何理解Transformer中的Q,K,V以及Mask[补充深度学习中的FLOPs是什么?如何计算]
如何理解Transformer中的Q,K,V以及MaskFLOPS(注意全大写),是floating point operations per second的缩写,意指 每秒浮点运算次数,理解为计算速度。是一个衡量硬件性能的指标。原创 2022-10-12 23:56:22 · 784 阅读 · 1 评论 -
『NLP学习笔记』简单实现Dataset和Dataloader(补充生成器/wget/curl/top)
简单实现Dataset和Dataloader原创 2022-05-04 00:28:38 · 1971 阅读 · 1 评论 -
『NLP学习笔记』Seq2Seq机器翻译
Seq2Seq机器翻译原创 2022-05-03 20:28:04 · 906 阅读 · 0 评论 -
『NLP学习笔记』Cross Entropy Loss 的硬截断、软化到 Focal Loss
对于二分类模型,我们总希望模型能够给正样本输出 1,负样本输出 0,但限于模型的拟合能力等问题,一般来说做不到这一点。而事实上在预测中,我们也是认为大于 0.5 的就是正样本了,小于 0.5 的就是负样本。这样就意味着,我们可以 “有选择” 地更新模型,比如,设定一个阈值为 0.6,那么模型对某个正样本的输出大于 0.6,我就不根据这个样本来更新模型了,模型对某个负样本的输出小于 0.4,我也不根据这个样本来更新模型了,只有在 0.4~0.6 之间的,才让模型更新,这时候模型会更 “集中精力” 去关心那些原创 2022-04-12 01:17:55 · 1687 阅读 · 0 评论 -
『NLP学习笔记』多标签分类损失总结
多标签分类: 就是同一个实例,可以有多个标签,或者被分为多个类。原创 2022-04-09 17:25:28 · 1349 阅读 · 0 评论 -
『NLP学习笔记』Triton推理服务器加速模型推理
NVIDIA Triton(英伟达官网)推理服务器在生产中提供快速且可扩展的 AI。开源推理服务软件 Triton Inference Server 通过使团队能够从任何框架 (TensorFlow、NVIDIA TensorRT、PyTorch、ONNX、XGBoost、Python、自定义等) 在任何基于 GPU 或 CPU 的基础设施上部署经过训练的 AI 模型,从而简化 AI 推理(云、数据中心或边缘)。原创 2022-03-22 00:21:16 · 3429 阅读 · 1 评论 -
『NLP学习笔记』Pytorch模型转onnx使用onnx runtime加速&Triton加速
ONNX Runtime 是一个专注于性能的 ONNX 模型引擎,它可以跨多个平台和硬件(Windows、Linux 和 Mac 以及 CPU 和 GPU)高效地进行推理。事实证明,ONNX 运行时可显着提高多个模型的性能torch.stack和torch.cat的函数区别原创 2022-03-18 02:59:40 · 2098 阅读 · 0 评论 -
『NLP学习笔记』CLIP文本图像自监督学习解读
本文提出CLIP,Contrastive Language–Image Pre-training,用4亿对来自网络的图文数据集,将文本作为图像标签,进行训练。进行下游任务时,只需要提供和图上的concepts对应的文本描述,就可以进行zero-shot transfer。模型在30个CV数据集上做了实验,实验任务包括OCR, action recognition in videos, geo-localization, and many types of fine-grained object class原创 2022-03-17 02:06:33 · 2385 阅读 · 0 评论 -
『NLP学习笔记』长短期记忆网络LSTM介绍
长短期记忆网络的设计灵感来自于 计算机的逻辑门。 长短期记忆网络引入了 记忆元(memory cell),或简称为 单元(cell)。原创 2022-03-15 11:54:57 · 2279 阅读 · 0 评论 -
『NLP学习笔记』向量与矩阵、矩阵与矩阵的余弦相似度
余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就叫"余弦相似性"。原创 2022-03-12 00:58:32 · 3299 阅读 · 0 评论 -
『NLP学习笔记』AllenNLP的注册机制
AllenNLP的注册机制! 文章目录1. 为什么要使用Registrable2. Registrable 类的使用方法3. Registrable 类的进阶用法作为正式内容的铺垫,这一讲我们就先来学习一下AllenNLP的注册机制。之所以要先说这个,是因为在AllenNLP当中,所有的类都是可以动态加载的,最简单的理解就是,你在Json里存一个比如 dataset 的类名, 他会根据这个类名自动的去找到这个类的定义,然后创建一个实例。所以很多时候,你在网上搜索别人实现的比如文本分类的算法时,别人可原创 2022-02-15 00:16:54 · 253 阅读 · 0 评论 -
『NLP学习笔记』BERT命名实体识别(NER)实战
命名实体识别(Named EntitiesRecognition,NER),就是识别这些实体指称的边界和类别。主要关注人名、地名和组织机构名这三类专有名词的识别方法。原创 2021-12-20 22:40:46 · 3445 阅读 · 4 评论 -
『NLP学习笔记』BERT文本分类实战
Bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers,是通过训练Masked Language Model和预测下一句任务得到的模型。原创 2021-12-20 22:18:35 · 2187 阅读 · 4 评论 -
『NLP学习笔记』Sklearn计算准确率、精确率、召回率及F1 Score
分类是机器学习中比较常见的任务,对于分类任务常见的评价指标有 准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1 score、ROC曲线(Receiver Operating Characteristic Curve)等。原创 2021-12-07 01:39:53 · 9991 阅读 · 3 评论 -
『NLP学习笔记』HugeGraph套件安装与使用指南
HugeGraph是一款面向分析型,支持批量操作的图数据库系统(Graph Database,GitHub项目地址),它由百度安全团队自主研发,全面支持Apache TinkerPop3框架和Gremlin图查询语言,提供导出、备份、恢复等完善的工具链生态,有效解决海量图数据的存储、查询和关联分析需求。HugeGraph支持百亿以上的顶点和边快速导入,并提供毫秒级的关联关系查询能力(OLTP), 并可与Hadoop、Spark等大数据平台集成以进行离线分析(OLAP)。原创 2021-09-11 20:20:58 · 1174 阅读 · 1 评论 -
『NLP学习笔记』Pytorch中的DNN训练流程介绍
Few-shot Learning技术介绍! 文章目录一. What is PyTorch?二. Overview of the DNN Training Procedure一. What is PyTorch?An open source machine learning framework.A Python package that provides two high-level features:1. Tensor computation (like NumPy) with strong原创 2021-10-27 23:19:34 · 1179 阅读 · 0 评论 -
『NLP学习笔记』Few-shot Learning技术介绍
Few-shot Learning技术介绍!原创 2021-10-21 01:13:57 · 1755 阅读 · 0 评论 -
『NLP学习笔记』Transformer技术详细介绍
Transformer技术详细介绍! 文章目录一. 位置编码1.1. 整体结构图1.2. Encoder结构图二. 多头注意力机制2.1. 注意力机制的本质2.2. 举例说明2.3. Transformer中的注意力三. 残差和layerNormal3.1. Layer Normalization四. 前馈神经网络五. Decoder5.1. 掩盖多头注意力机制5.2. 交互层六. 参考一. 位置编码1.1. 整体结构图TRM在做一个什么事情?细化再细化原论文原创 2021-10-20 00:34:50 · 1142 阅读 · 0 评论 -
『NLP学习笔记』BERT技术详细介绍
Bert模型是Google在2018年10月发布的语言表示模型,Bert在NLP领域横扫了11项任务的最优结果,可以说是现今最近NLP中最重要的突破。Bert模型的全称是Bidirectional Encoder Representations from Transformers,是通过训练Masked Language Model和预测下一句任务得到的模型。原创 2021-09-28 01:15:57 · 2206 阅读 · 3 评论 -
『NLP学习笔记』TF-IDF算法进行关键词提取(Python迭代器、sorted、lambda、filter)
TF-IDF算法进行关键词提取! 文章目录一. 关键词二. TF-IDF关键词提取算法三. 算法实现一. 关键词关键词 是指能反映文本主题或者意思的词语,如论文中的Keyword字段。关键词提取是文本挖掘领域一个很重要的部分,通过对文本提取的关键词可以窥探整个文本的主题思想,进一步应用于文本的推荐或文本的搜索。常用的关键词提取算法:TF-IDF算法、TextRank算法。二. TF-IDF关键词提取算法TF-IDF(Term frequency-inverse document fr原创 2021-09-21 23:09:36 · 1621 阅读 · 0 评论