nlp
文章平均质量分 89
丶谢尔
这个作者很懒,什么都没留下…
展开
-
ABSA系列-Open Aspect Target Sentiment Classification with Natural Language Prompts
这是一篇发表在的论文。该篇文章利用自然语言提示(Prompt),将方面目标情感分类(Aspect Target Sentiment Classification)任务定义为自然语言推断(NLI)和完形填空任务,从而更好地发挥预训练模型的性能,在零样本(Zero-shot)、少样本(Few-shot)和全样本的场景下都表现出了良好的性能,同时体现出良好的鲁棒性。原创 2022-11-06 10:50:33 · 445 阅读 · 1 评论 -
NLP系列——(10)BERT
BERT一、Transformer1.1 Encoder-Decoder框架1.2 Transformer模型架构二、BERT2.1 BERT 原理2.2 BERT模型总体结构2.3 BERT模型输入2.4 BERT模型预训练任务2.4.1 Masked LM2.4.2 Next Sentence Prediction2.5 模型比较三、BERT实现文本分类Bert之所以取得这么惊才绝艳的效果,...原创 2019-05-30 20:58:17 · 799 阅读 · 2 评论 -
NLP系列——(9)Attention
Attention一、基本的Attention原理1.1 什么是Attention?1.2 为什么要加入Attention1.3 Attention的原理二、HAN(Hierarchical Attention Networks)的原理三、Attention实现文本分类一、基本的Attention原理1.1 什么是Attention?Attention模型的基本表述可以这样理解成(个人理解...原创 2019-05-28 10:59:14 · 520 阅读 · 0 评论 -
NLP系列——(4)文本表示
文本表示1、文本表示2、 文本表示的方法2.1 one-hot表示2.2 word2vec2.2.1 CBOW2.2.2 Skip-Gram1、文本表示文本表示的意思是把字词处理成向量或矩阵,以便计算机能进行处理。文本表示是自然语言处理的开始环节。文本表示按照细粒度划分,一般可分为字级别、词语级别和句子级别的文本表示。文本表示分为离散表示和分布式表示。离散表示的代表就是词袋模型,one-h...原创 2019-05-18 10:22:56 · 6469 阅读 · 0 评论 -
NLP系列——(6)神经网络+FastText
神经网络+FastText一、神经网络基础1.1 前馈神经网络1.1.1 神经元模型1.1.2 前馈神经网络1.1.3 网络层数1.1.4 输入层1.1.5 输出层1.1.6 隐藏层1.1.7 隐藏单元1.1.8 激活函数1.1.9 前馈神经网络与反向传播算法(推导过程)1.2 感知机1.2.1 感知机的原理1.2.2 点到线的距离1.2.3 样本到超平面的距离1.2.4 超平面1.2.5 感知机...原创 2019-05-22 20:52:14 · 1473 阅读 · 0 评论 -
NLP模型——FastText
FastText一、预备知识1.1 Softmax 回归1.2 分层Softmax1.3 n-gram特征二、word2vec三、FastText 原理四、FastText 实战fastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在学术上并没有太大创新。但是它的优点也非常明显,在文本分类任务中,fastText(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时...原创 2019-05-22 20:47:42 · 1066 阅读 · 0 评论 -
NLP系列——(8)循环和递归神经网络
循环和递归神经网络RNN的结构。循环神经网络的提出背景、优缺点。着重学习RNN的反向传播、RNN出现的问题(梯度问题、长期依赖问题)、BPTT算法。双向RNN递归神经网络LSTM、GRU的结构、提出背景、优缺点。针对梯度消失(LSTM等其他门控RNN)、梯度爆炸(梯度截断)的解决方案。Memory Network(自选)Text-RNN的原理。利用Text-RNN模型来进行文本分...转载 2019-05-26 16:02:04 · 281 阅读 · 0 评论 -
NLP系列——(1)数据探索-汇总
将几个任务分开整理的,在此做个汇总NLP系列——(1)数据探索-IMDBNLP系列——(1)数据探索-THUCNewsNLP系列——(1)数据探索-召回率、准确率、ROC曲线、AUC、PR曲线等概念...原创 2019-05-12 16:23:46 · 279 阅读 · 0 评论 -
NLP系列——(1)数据探索-召回率、准确率、ROC曲线、AUC、PR曲线等概念
数据集探索——机器学习之类别不平衡问题1 各种评估指标评估指标 Evaluation metrics 可以说明模型的性能,辨别模型的结果。我们建立一个模型后,计算指标,从指标获取反馈,再继续改进模型,直到达到理想的准确度。在预测之前检查模型的准确度至关重要,而不应该建立一个模型后,就直接将模型应用到看不见的数据上。接下来介绍几种回归和分类常用的评估方法。1.1、回归回归问题的标记 y...原创 2019-05-12 16:20:53 · 1614 阅读 · 0 评论 -
NLP系列——(1)数据探索-THUCNews
数据集探索一、数据集数据集:中、英文数据集各一份1、中文数据集:THUCNewsTHUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud2、英文数据集:IMDB数据集IMDB Sentiment Analysis二、数据探索1、THUCNews数据集的探索这里参考 CNN字符级中文文本分类-基于TensorFlow实现 - 一蓑烟...原创 2019-05-12 10:55:08 · 728 阅读 · 0 评论 -
NLP系列——(7)卷积神经网络
卷积神经网络+Text-Text一、卷积神经网络1.1 卷积1.1.1 一维卷积1.1.2 二维卷积1.1.3 卷积网络—动机1.1.4 一维卷积运算和二维卷积运算1.2 池化层二、Text-CNN一、卷积神经网络1.1 卷积卷积(Convolution),其实是一种数学运算,在信号处理或图像处理中,经常使用一维卷积或二维卷积。1.1.1 一维卷积一维卷积经常用在信号处理中,用于计算信号...原创 2019-05-24 20:57:46 · 2159 阅读 · 0 评论 -
NLP模型——TextCNN
TextCNN参考 Text-CNN 文本分类转载 2019-05-24 20:56:05 · 302 阅读 · 0 评论 -
NLP系列——(1)数据探索-IMDB
数据集探索一、数据集数据集:中、英文数据集各一份1、中文数据集:THUCNewsTHUCNews数据子集:https://pan.baidu.com/s/1hugrfRu 密码:qfud2、英文数据集:IMDB数据集IMDB Sentiment Analysis二、数据探索1、IMDB数据集的探索这里参考TensorFlow官方教程:影评文本分类 | TensorFlow 和...原创 2019-05-11 18:05:37 · 1009 阅读 · 0 评论 -
NLP系列——(3)特征选择
文章目录一、TF-IDF1.1 背景1.2 TF-IDF概述1.3 TF-TIDF的实现1.3.1 用gensim库来计算tfidf值1.3.2 用sklearn库来计算tfidf值1.3.3 用python手动实现tiidf的计算二、互信息2.1 点互信息PMI2.2 互信息MI2.3 对特征矩阵使用互信息进行特征筛选任务描述:Task3 特征选择TF-IDF原理以及利用其进行特征筛选互信...原创 2019-05-15 10:45:19 · 2513 阅读 · 0 评论 -
NLP系列——(5)朴素贝叶斯+SVM+LDA
文本表示一、朴素贝叶斯1.1 朴素贝叶斯理论1.高斯模型2.多项式模型3.伯努利模型1.2 朴素贝叶斯实战——文本分类二、SVM模型2.1 SVM原理2.2 SVM实战——文本分类三、LDA主题模型3.1 PLSA、共轭先验分布3.1.1 PLSA(基于概率统计的隐性语义分析)3.1.1 共轭先验分布3.2 LDA3.2.1 LDA介绍3.2.2 LDA生成过程3.2.3 LDA整体流程3.3 使...原创 2019-05-20 11:38:55 · 1546 阅读 · 0 评论 -
NLP系列——(2)特征提取
文章目录一、中英文文本分析1.1 中文文本特点1.2 英文文本特点二、文本数据的基本特征提取2.1 词汇数量2.2 字符数量2.3 平均词汇长度2.4 停用词数量2.5 特殊字符数量2.6 数字数量2.7 大写字母数量三、文本数据的预处理3.1 小写转换3.2 去除标点符号3.3 去除停用词3.4 常见词去除3.5 稀缺词去除3.6 拼写校正3.7 分词(tokenization)分词算法设计的基...原创 2019-05-13 21:12:33 · 6954 阅读 · 0 评论