自然语言处理
文章平均质量分 92
莫杨94
知识图谱,自然语言处理qq:2016299773
展开
-
LLM资料
欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入MarkdownText-to-HTMLAuthorsJohnLuke。原创 2023-07-18 22:11:41 · 728 阅读 · 1 评论 -
Bert原理详解
1. Bert模型Bert全称Bidrectional Encoder Representation fromTransformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。1.1 模型结构由于模型的构成元素是Transformer,就不多说了,Bert模型的结构如下图最左:原创 2021-09-17 10:37:09 · 3466 阅读 · 0 评论 -
通俗易懂的BiLSTM-CRF,用命名实体识别任务来解释CRF(一)
BiLSTM上的CRF,用命名实体识别任务来解释CRF0 导读预备知识1.介绍1.1 开始之前1.2 BiLSTM-CRF模型1.3 如果没有CRF层会怎么样1.4 CRF层可以训练数据中学习约束2. CRF层2.1 Emission得分2.2 Transition得分2.3 损失函数2.4 实际路径得分2.5所有可能的路径的得分参考链接0 导读看了很多的CRF的介绍和讲解,这个感觉是最清楚的,结合实际的应用场景,让你了解的用处和用法。预备知识你需要知道的唯一的事情是什么是命名实体识别,如果你不知道原创 2021-09-15 11:01:15 · 1116 阅读 · 0 评论 -
详解BiLSTM
一、介绍1.1 文章组织本文简要介绍了BiLSTM的基本原理,并以句子级情感分类任务为例介绍为什么需要使用LSTM或BiLSTM进行建模。1.2 情感分类任务自然语言处理中的情感分类任务是对给定文本进行情感倾向分类的任务,粗略来看可以认为其是分类任务中的一种。对于情感分类任务,目前通常的做法是先对词或者短语进行表示,再通过某种组合方式把句子中词的表示组合句子的表示。最后,利用句子的表示对句子进行情感分类。举一个对句子进行褒贬二分类的例子:句子:我爱你情感标签:褒义1.3 什么是LSTM和原创 2021-09-13 13:46:02 · 13376 阅读 · 0 评论 -
详解Transformer
详解Transformer0 前言1 详解Transformer1.1 高层Transformer1.2 输入编码1.3 Self-Attention1.3 Multi-head Attention1.4 Encoder-Decoder Attention1.5 损失层2 编码位置3 总结0 前言注意力机制是在2014年提出,并在近年广泛的应用在深度学习中的各个领域,例如在计算机视觉方向用于捕捉图像上的感受野,或者NLP中用于定位关键token或者特征。谷歌团队近期提出的用于生成词向量的BERT算法在N原创 2021-09-10 15:08:02 · 794 阅读 · 0 评论 -
Word2vec词向量本质
秒懂Word2vec词向量1 正文1.21二级目录三级目录1 正文在聊Word2vec之前,先聊聊NLP。NLP里面,最细粒度的是词语,词语组成句子,句子再组成段落、篇章、文档等。所以处理NLP问题,首先拿词语开到。举一个简单例子,判断一个词的词性,是动词还是名词。用机器学习的思路,我们有一系列的(x,y),这里x是词语,y是它的词性,我们要构建f(x)->y的映射,但这里的数学模型f(比如神经网路、SVM)只接受数值输入,而NLP里的词语,是人类抽象总结,是符号形式的(比如中文、英文、拉丁文原创 2021-09-09 15:26:31 · 157 阅读 · 0 评论 -
一文读懂LSTM
一文读懂LSTM0 从RNN说起1 普通RNN2 LSTM2.1 什么是LSTM2.2 深入LSTM结构3 总结0 从RNN说起循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网路。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上下文提到的内容不同而含有不同的涵义,RNN就能很好的处理这样的数据。1 普通RNN先介绍一下一般的RNN模型。其主要的形式如下图所示(图片来源台大李宏毅PPT):这里:x维当前状态下数据原创 2021-09-09 10:13:04 · 472 阅读 · 0 评论 -
数据不平衡问题
这里写目录标题1. 定义2.常用处理方法2.1 欠采样2.1.1方法一(随机删除):2.1.2方法二(原型生成Prototype generation):2.2 过采样2.2.1 方法一(随机复制):2.2.2 方法二(样本构建):2.3 模型算法三级目录1. 定义数据不平衡指的是不同类别的样本量差异非常大,或者少数样本代表了业务的关键数据(少量样更重要),需要对少量样本的模式有很好的学习。样本类别分布不平衡主要出现在分类相关的建模问题上。样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数。原创 2021-05-24 22:06:04 · 4783 阅读 · 0 评论 -
词性标注与命名实体识别
词性标注与命名实体识别一 词性标注 简介 词性是词汇基本的语法属性,通常也称为词类。词性标注是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。例如,表示人、地点、事物以及其他抽象概念的名称即为名词,表示动作或状态变化的词为动词,描述或修饰名词属性、状态的词为形容词。如给定一个句子:“这儿是个非常漂亮的公园”,对其的标注结果应如下:“这儿/代词 是/动词 个/量词 非常/...原创 2020-05-02 15:10:53 · 2679 阅读 · 0 评论 -
中文分词
中文分词技术简介“词”这个概念一直是汉语语言学界纠缠不清而又绕不开的问题。“词是什么”(词的抽象定义)和“什么是词”(词的具体界定),这两个基本问题迄今为止也未能有一个权威、明确的表述,更无法拿出令大众认同的词表来。主要难点在于汉语结构与印欧体系语种差异甚大,对词的构成边界方面很难进行界定。比如,在英语中,单词本身就是“词”的表达,一篇英文文章就是“单词”加分隔符(空格)来表示的,而在汉语中...原创 2020-04-30 17:49:42 · 549 阅读 · 0 评论