ox180x-CSDN博客

原创 CLIP、ViLT 与 LLaVA：多模态模型是如何看图说话的？

这三种模型可以形成一条多模态的发展路径：模型图文处理方式能力优点不足CLIP图文分开编码 + 对比学习图文检索、匹配训练数据丰富、表现稳定不会说话，只能匹配ViLT图文融合 + Transformer图文匹配、分类模型轻巧、统一结构图像理解能力弱，不生成语言LLaVA图像理解 + LLM生成图像问答、对话能看图说话、回答灵活拼接结构、效率较低至此，我们大致初步讲清楚了多模态的历史发展，以及从能力角度和痛点来进行还原与分析。目前多模态的发展也是很快的，例如。

2025-05-21 16:59:06 1151

原创 CNN vs ViT：图像世界的范式演进

想象你正在处理一张图片，比如一张猫的照片。你不是用人眼看，而是交给一个“滤镜系统”处理。这时候，卷积核就像是一组特定用途的图像滤镜，比如：有些滤镜专门“强调边缘”；有些滤镜“只在看到竖线时有反应”；有些滤镜“喜欢曲线”或“角落状的区域”；当你用这些滤镜一层层地扫描整张猫图时（如上图）：第一层滤镜可能捕捉到了猫耳朵的轮廓、胡须的线条、眼睛的对比边缘；第二层把这些低级特征组合起来，形成“猫眼睛”或“猫耳朵区域”的高级特征；更深的层能捕捉出“这可能是一只猫”的抽象概念。这个过程可以理解成是。

2025-05-21 11:05:40 861

原创多模态大模型MLLM：不仅能聊，还能看，还能听！

在之前讲Word2Vec、Bert到ChatGPT，我们发现大模型虽然对文字理解表现不错，但是似乎无法理解图片。例如：“为什么 ChatGPT 看不懂截图？“为什么你上传的发票，Qwen3模型读不出金额？“Deepseek能写论文，但不会读一张图？为什么会这样？从根本来讲，大模型最初是为了“读文字”而设计的，而不是“看世界”。但现实世界远不止文本。发票、表格、网页、商品图片、甚至手写体文字，。如果模型不能“看图”，它就无法真正参与现实世界的任务。

2025-05-20 11:49:57 911

原创如何让大模型更聪明？带你理解 RAG、MCP与微调

RAG是指Retrieval-Augmented Generation，检索增强搜索，即在回复用户问题前，先进行搜索获取相关资料然后由大模型进行汇总整理输出答案给用户。RAG 的数据流程图（用户提问 → 检索 → 拼接prompt → 模型回答）针对R，这里其实是个比较老生常谈的话题。搜索领域，例如大家所知道的Google、Bing、Baidu搜索，技术上例如耳熟能详地关键词检索，使用ElasticSearch构建大数据搜索系统等等。

2025-05-19 17:24:04 894

原创 9.11 ＞ 9.8？错的不是模型，是你对它的期待

过去几年，大模型（LLM）几乎成了AI的代名词，从ChatGPT 到 Qwen、Claude，再到火出圈的DeepSeek，每一个新模型的发布都伴随着参数量的飞涨，百亿、千亿、万亿模型层出不穷。但很多开发者会有一个直观感受：“模型越来越大了，参数越来越多了，但为什么用起来仍然感觉它？能对对联，能写诗，但是对于一个简单的“9.11和9.8哪个大”都搞错。能上知天文，下知地理，但是仍可能会前言不搭后语。那么问题出在哪？

2025-05-19 14:03:52 907 1

原创从 BERT 到大模型时代：AI 研究人员这几年都在忙什么？

在絮絮叨叨与压缩近来发展史导致不严谨、疏漏的前文下，我们也真切感受到了探索、失败、再来、小高潮、发展的过程，但这仅仅只是开始。你现在的加入，刚刚好。

2025-05-19 13:54:32 805

原创从 Word2Vec 到 BERT：AI 不止是词向量，更是语言理解

在上篇文章中，我们介绍了Word2Vec以及它的作用，总的来说：Word2Vec是我们理解NLP的第一站Word2Vec将词变成了“向量”—— 终于可以用机器理解词语的相似度我们获得了例如“国王 - 男人 + 女人 ≈ 女王” 的类比能力我们可以将Word2Vec这种算法能力，应用到各种创新场景，例如基于Graph的推荐系统，后续如果小伙伴有需要，可以一起深入交流。但同时也指出了它的不足：一个词=一个固定向量（静态词向量）上下文无感知：“苹果”无论是手机还是水果，向量相同。

2025-05-19 13:42:59 1052

原创 [特殊字符] Word2Vec：将词映射到高维空间，它到底能解决什么问题？

在 Word2Vec 出现之前，自然语言处理更多是“工程方法”，例如字符串匹配、关键词提取、正则规则...。但这些表示通常缺乏语义，词与词之间看不出任何联系以及非常浅显。例如：关键词匹配非常快速和结果可控，算法层面例如AC自动机、Trie等。但同时也取决于用的人，例如早前“在港台电影中，刘德华为什么很少演反派？会出现“华为”相关内容，有网友指出是因为触发了关键词“华为”。TF-IDF的升级版BM25，广泛应用于搜索引擎，例如ElasticSearch。

2025-05-19 11:45:21 1064

原创起点与破圈

作为一名拥有10年开发经验的“全栈工程师”，作者经历了从网站开发到大数据系统构建、服务器架构设计、数据库优化以及客户端应用开发等多个技术阶段。然而，随着技术深度的增加，作者感到传统开发技能更多是“技术体力劳动”，难以推动产品的质变，且个人成长速度放缓。在接触到NLP领域后，作者开始转向算法研究，并最终投身于大模型领域。这一转变不仅颠覆了作者对传统开发的理解，也为其打开了新的技术视角。本系列文章旨在帮助有Python和Web后端/数据开发经验的读者快速上手AI项目，无需深入数学和模型理论，即可具备实操能力。

2025-05-19 11:32:07 168

原创访问github个人博客

http://geasyheart.github.io/内容会更快更新哦~

2022-04-13 19:31:29 523

原创 macbert4csc纠错

简介此篇文章是对macbert4csc模型的一次尝试与思考，废话不多说，看内容。模型结构这个模型分成两部分：使用BertForMaskedLM对预训练模型做mask训练。对预测的结果输入linear，判断预测的结果和真实的结果是否相同，即二分类。举例：比如错句为我和你在一其，正确的句子为我和你在一起，错句输入MLM，得到的结果假设为我和你在一器。然后输入...

2022-04-01 08:52:35 4821 6

原创腾讯TexSmart备忘

备忘一下～之前在看腾讯开源的词向量时，Tencent AI Lab Embedding Corpus for Chinese Words and Phrases，在看到Simple Cases那里，瞬间感到震撼！！果然大公司就是大公司，有钱有地位。。。跟着公司做了一些技术研究和项目后，发现目前nlp之所以发展没到位，最主要原因就是：算法和数据分家。算法层面，目前...

2022-03-14 09:48:22 987

原创 pycorrector源码阅读和纠错一些思考

介绍这篇文章主要对pycorrector默认使用规则的代码进行debug和理解，不论怎样，应先读下作者的readme，有个充分的理解先。初始化工作初始化主要做了三件事：初始化一些词典，用于后面纠错用。加载kenlm模型。初始化jieba分词器。1. 初始化一些词典等加载常用的汉字列表、加载同音字列表、加载形似字12345678910check_c...

2022-02-23 20:49:19 789

原创 SIFRank_zh与关键词提取

介绍本文尝试从几个方面来介绍提取关键词所知的技术，以及关键词提取所遇到的问题，接着介绍SIFRank-zh算法，最后穿插下个人的理解与总结。关键词提取技术刚开始接触这个概念的时候，网上一大堆介绍TF-IDF和TextRank算法，这俩简直已经称为了关键词提取的baseline。关于TF-IDF，的确在许多文档中已经作为了baseline来和其他技术相对比，是一种简...

2022-01-12 10:36:27 1084

原创信息提取中分块或表达式

介绍什么是表达式，用一组规则来进行信息表示与提取。这个名字起的有点绕，本质来讲他是做下面这个事情的。假设分词结果如下所示：12345678[ ('现在', 'time'), ('社区', 'n'), ('在', 'p'), ('进行', 'v'), ('网格化', 'n'), ('管理', 'n')]表达式演变1如果从这句...

2022-01-05 10:58:12 572

原创 torch使用tensorboard简明备忘录

tensorboard是让torch可以使用tensorflow的web可视化工具，之前叫tensorboardX。至于其他的介绍以及为什么需要，可自行百度。简单的完整代码1234567891011121314151617181920# -*- coding: utf8 -*-#import mathfrom torch.utils.tensorboard imp...

2021-12-30 10:43:21 1755

原创预训练思考与基于预训练模型的应用例子

介绍本篇文章主要讲基于bert预训练模型的一些例子，希望可以从不同角度理解与应用基于bert的一些应用。nlp发展了这么多年，经历了规则，统计，模型等阶段，目前预训练模型基本算是一统天下了。大公司有更多资源，可以联合一些科研机构与组织搞一些事情，比如微软和nvidia利用更多的资源来探测模型的边界。这个就很有意思，思考一个问题，什么叫意识？什么情况下产生了意识？...

2021-12-29 16:23:35 239

原创 transformers-tokenizer备忘

对transformers库不常用记录，方便回溯。知识点1. fast的含义比如BertTokenizerFast,use_fast, 示例如下：1AutoTokenizer.from_pretrained('hfl/chinese-electra-180g-small-discriminator', use_fast=True)它的含义是使用rust加速速度。...

2021-12-29 14:37:05 440

原创动态词向量之elmo

介绍elmo是用于解决静态词向量无法一词多义的模型。在介绍如何实现elmo模型的时候，此处穿插进来Conv1d layer(一维卷积层)。本文代码以plm-nlp-code chp6为准，可直接参考。Conv1d介绍卷积有Conv1d(序列),Conv2d(图像),Conv3d(立体数据)，主要区别在于不同方向上进行卷积。因为文字是一维结构的，从而在nlp领域...

2021-12-28 22:43:05 476

原创静态词向量之glove

介绍在之前讲解获取静态词向量的方法中，都是在context_size下用到了word和context的共现关系。要么word预测context words，要么context words预测word。本质上都是利用文本中词与词在局部上下文中的共现信息作为自监督学习信息。还有一种是通过矩阵分解的方式，比如LSA，然后使用SVD进行奇异值分解，对该矩阵进行降维，获得词...

2021-12-28 10:11:31 442 1

原创静态词向量之rnn训练词向量

介绍前文介绍了许多方法来获取静态词向量，本文介绍使用lstm来训练词向量。模型12345678910111213141516171819class RNNLM(nn.Module): def __init__(self, vocab_size, embedding_dim, hidden_dim): super(RNNLM, self).__i...

2021-12-24 16:18:29 433

原创静态词向量之word2vec-cbow

介绍如果你看懂了skipgram和cbow的区别，那么实现上面就很简单了。skipgram是中心词预测周围词，cbow是周围词预测中心词，即dataset那里更换下input和target即可。具体就不细讲了，大家看源码吧～。实现1234567891011121314151617181920212223242526272829303132333435363738...

2021-12-24 14:25:43 194

原创静态词向量之FFNN训练词向量

介绍本文分享几个好玩的知识点：前馈神经网络bag of words(词袋)使用ffnn获取词向量前馈神经网络什么叫前馈神经网络呢，emmm，自个去看百度百科定义前馈神经网络。简单来说，就是两个linear加一个激活函数，简单结构如下:12345678class FFNN(nn.Module): def __init__(self): ...

2021-12-24 11:43:03 594

原创静态词向量之word2vec-skipgram

介绍当当当，欢迎来学习word2vec skipgram，关于word2vec，网上介绍的例子一大堆，这里就简单说明下。最开始进行tokenizer的时候，是使用onehot编码，缺点就是矩阵太大，另外太稀疏，而且词和词之前是不具备语义信息的。你说什么叫语义？语义没有官方定义，可以简单理解成更符合人类认知的，我觉得就可以理解成语义。而word2vec带来了稠密向量...

2021-12-22 16:53:26 320

原创 transformer使用示例

关于transformer的一些基础知识，之前在看李宏毅视频的时候总结了一些，可以看here，到写此文章时，也基本忘的差不多了，故也不深究，讲两个关于transformer的基本应用，来方便理解与应用。序列标注参考文件transformer_postag.py.1. 加载数据12#加载数据train_data, test_data, vocab, pos_voc...

2021-12-22 10:25:25 1945

原创 coreference resolution

介绍共指解析，按照百度的定义如下：1众所周知，人们为了避免重复，习惯用代词、称谓和缩略语来指代前面提到的实体全称。例如，在文章开始处会写“哈尔滨工业大学”，后面可能会说“哈工大”、“工大”等，还会提到“这所大学”、“她”等。这种现象称为共指现象。简而言之，其目的在于自动识别表示同一实体的名词短语或代词等。举个例子：哈尔滨工业大学，一般学生或者大众喜欢简称为哈...

2021-12-17 14:32:21 712 2

原创活到老学到老之index操作

快速想一想，你能想到torch有哪些常见的index操作？？1. gather12345>>> a = torch.tensor([[1, 2, 3], [4, 5, 6]])>>> a.gather(dim=1, index=torch.tensor([[0,1], [1,2]]))tensor([[1, 2],...

2021-12-16 10:20:21 264

原创语义依存分析

定义(ltp)语义依存分析 (Semantic Dependency Parsing, SDP)，分析句子各个语言单位之间的语义关联，并将语义关联以依存结构呈现。使用语义依存刻画句子语义，好处在于不需要去抽象词汇本身，而是通过词汇所承受的语义框架来描述该词汇，而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句子表层句法结构的束缚，直接获取深层的语义...

2021-11-15 23:41:54 1747

原创 bio-based语义角色标注

定义定义1：1Semantic Role Labeling (SRL) is defined as the task to recognize arguments for a given predicate and assign semantic role labels to them.定义2(ltp)：1语义角色标注 (Semantic Role Labelin...

2021-11-12 16:22:30 744

原创基于树形条件随机场的高阶句法分析

此篇文章貌似没有重点，日常笔记吧。基于树形条件随机场的高阶句法分析作者硕士毕业论文，关于句法分析的历史与实现基本讲了一遍，包括作者使用TreeCRF高阶建模等工作。代码，这个项目包含了句法分析任务的实现。包括dependency parser，semantic dependency parser，constituency parser等。对于句法分析工作，百度d...

2021-11-02 14:22:48 204

原创属性抽取调研-工业界

属性抽取调研——工业界目录1. 任务1.1. 背景1.2. 任务定义1.3. 数据集1.4. 评测标准2. 方法总结2.1. 基于无监督的属性抽取方法2.1.1. 基于规则的槽填充算法2.1.2.基于聚类的属性抽取方法2.2. 基于依存关系的半监督的槽填充方法2.3. 基于深度学习的序列标注方法2.4.基于元模式的属性抽取方法...

2021-10-30 23:12:35 1465

原创关系抽取-学术界

关系抽取调研——学术界目录1. 任务1.1. 任务定义1.2. 数据集1.3. 评测标准1.4. SOTA2. 方法总结2.1. 基于模式挖掘的方法2.1.1. 基于模板匹配的方法2.1.2. 基于依存句法的方法2.2. 监督学习2.2.1. 机器学习2.2.1.1. 基于特征向量的方法2.2.1.2. 基于核函数的方法...

2021-10-30 22:04:36 655

原创关系抽取调研-工业界

关系抽取调研——工业界目录1. 任务1.1. 任务定义1.2. 数据集1.3. 评测标准2. 方法总结2.1. 基于模板的方法2.1.1. 基于触发词/字符串2.1.2. 基于依存句法2.2. 监督学习2.2.1. 机器学习2.2.2. 深度学习 Pipeline vs Joint Model2.3. 半监督/无监督方法2....

2021-10-30 20:04:36 846

原创 bert和xlnet

1. AR与AE语言模型AR: Autoregressive Language modelingAE: AutoEncoding Language modelingAR语言模型：指的是，依据前面(或后面)出现的tokens来预测当前时刻的token，代表有ELMO,GPT等。AE语言模型：通过上下文信息来预测被mask的token，代表有 BERT , Word...

2021-10-28 09:35:10 370

原创 biaffine分析

下面改动这个代码，方便理解和实验12345678910111213141516171819202122232425262728293031323334353637383940class Biaffine(torch.nn.Module): def __init__(self, n_in=768, n_out=2, bias_x=True, bias_y=...

2021-10-16 23:45:43 554

原创成分句法分析

package写了一个成分分析树的标注包：https://github.com/geasyheart/constituency-tree-labeling-tool欢迎Star!!!本项目代码已privated，更多可直接参考yzhangcs/parser.定义成分句法分析(Constituency Parser)是将一个句子转换成由短语组成的树，为啥子要这...

2021-10-15 23:30:30 559

原创依存句法分析

捂脸欢迎star ^_^定义HanLP的定义依存句法分析，是指识别语句中词与词之间的依存关系，并揭示其句法结构，包括主谓关系、动宾关系、核心关系等。用依存语言学来理解语义，精准掌握用户意图百度ddparser的定义依存句法分析是自然语言处理核心技术之一，旨在通过分析句子中词语之间的依存关系来确定句子的句法结构。依存句法分析作为底层技术，可直接用于提升其他NLP任...

2021-10-15 20:45:43 5155

原创激活函数以及损失函数

sigmoid sigmoid函数和tanh函数是研究早期被广泛使用的2种激活函数。两者都为S型饱和函数。当sigmoid 函数输入的值趋于正无穷或负无穷时，梯度会趋近零，从而发生梯度弥散现象。sigmoid函数的输出恒为正值，不是以零为中心的，这会导致权值更新时只能朝一个方向更新，从而影响收敛速度。tanh激活函数是sigmoid 函数的改进版，...

2021-10-05 20:58:29 309

原创一些mask的操作理解

关于mask的使用，常见的用法在进行padding的时候，例如:1. 对矩阵获取句子长度123456from torch.nn.utils.rnn import pad_sequencea = [torch.tensor([1,2, 3]), torch.tensor([4,5])]b = pad_sequence(a, batch_first=True)mask...

2021-09-27 16:23:39 1027

原创 mlp反向传播推导

更新俺是发现了，还是得起一个比较牛逼的名字，不使用任何框架，只使用numpy来实现一个MLP，包括正向，反向，梯度更新等。????—————————-此处分割线—————————-最近在Youtube上看到一个非常不错以及简洁实现mlp模型的视频，目标为预测两个数相加和，用两个linear，每层的输入或输出为 2, 5, 1注意：所有代码可在github上找到，一...

2021-08-20 20:18:00 163

空空如也

空空如也