自然语言处理NLP
文章平均质量分 69
NLP经典模型讲解
mjiansun
Live and Learn.
展开
-
【NLP】完全解析RNN, Seq2Seq, Attention注意力机制
循环神经网络RNN结构被广泛应用于自然语言处理、机器翻译、语音识别、文字识别等方向。本文主要介绍经典的RNN结构,以及RNN的变种(包括Seq2Seq结构和Attention机制)。希望这篇文章能够帮助初学者更好地入门。.........转载 2022-08-03 11:41:52 · 545 阅读 · 0 评论 -
【Bert】(十六)命名实体识别--CRF原理介绍
BiLSTM中的CRF层(一)简介_带着小板凳学习的博客-CSDN博客_bilstm crfBiLSTM中的CRF层(二)CRF层_带着小板凳学习的博客-CSDN博客BiLSTM中的CRF层(三)CRF损失函数_带着小板凳学习的博客-CSDN博客_crf损失函数...转载 2022-03-22 09:57:17 · 2210 阅读 · 0 评论 -
【Bert】(十五)命名实体识别--跑通代码
1. 环境安装1.1 环境配置1、安装anaconda环境2、执行如下代码配置环境,不需要额外安装cuda和cudnn,如下的安装方式已经在环境中自动安装了cuda和cudnn,但只在conda叫bert的这个环境中生效,并不影响你原来安装的cuda和cudnn。conda create -n bert python=3.6conda activate bertconda install tensorflow-gpu==1.13.11.2 代码位置2. 训练代码执行训练原创 2022-03-11 15:16:01 · 3468 阅读 · 0 评论 -
【Bert】(十四)命名实体识别--中文数据介绍及标注
代码:https://github.com/macanv/BERT-BiLSTM-CRF-NER1. 下载数据The Chinese training data($PATH/NERdata/) come from:https://github.com/zjy-ucas/ChineseNER链接:https://pan.baidu.com/s/1JBnda5rgUsZjgYR5W7u-Fg提取码:x16l2.数据介绍2.1 标注方式【NLP】序列标注BIO介绍(也叫IOB2...原创 2022-03-11 15:03:36 · 2511 阅读 · 1 评论 -
【Bert】(十六)命名实体识别--方法介绍
https://blog.csdn.net/u013963380/article/details/108170686https://blog.csdn.net/u013963380/article/details/108695977https://blog.csdn.net/u013963380/article/details/108696552https://blog.csdn.net/u013963380/article/details/109270714转载 2022-03-11 11:07:59 · 229 阅读 · 0 评论 -
【NLP】序列标注BIO介绍(也叫IOB2)
1. 序列标注 序列标注(Sequence labeling)是我们在解决NLP问题时经常遇到的基本问题之一。在序列标注中,我们想对一个序列的每一个元素标注一个标签。一般来说,一个序列指的是一个句子,而一个元素指的是句子中的一个词。比如信息提取问题可以认为是一个序列标注问题,如提取出会议时间、地点等。 序列标注一般可以分为两类:1、原始标注(Raw labeling):每个元素都需要被标注为一个标签。2、联合标注(Joint segmentation and labeli...转载 2022-03-10 17:22:24 · 6694 阅读 · 0 评论 -
【NLP】词嵌入及为什么要这么做
作者:数据与智能链接:https://www.zhihu.com/question/307051604/answer/21468004231. 什么是词嵌入?及为什么要这么做?机器学习和深度学习等统计算法处理数字。要对文本应用统计算法,你需要将文本转换为数字。例如,你不能将两个词 apples 和 oranges加起来。你需要将文本转换为数字才能对单词应用数学运算。将文本转换为数字的过程,主要以向量的形式,称为词嵌入。在本章中,你将看到一些最常见的词嵌入方法。以下是一些最常见的词嵌.转载 2022-02-07 16:16:09 · 1346 阅读 · 0 评论 -
【Bert】(十三)命名实体识别--CoNLL数据介绍及标注
BiLSTM中的CRF层(一)简介_徐先森的博客-CSDN博客_bilstm crfBiLSTM中的CRF层(二)CRF层_徐先森的博客-CSDN博客BiLSTM中的CRF层(三)CRF损失函数_徐先森的博客-CSDN博客_crf损失函数Tensorflow1.x实现BiLstm+CRF_徐先森的博客-CSDN博客...转载 2022-03-10 16:49:29 · 2681 阅读 · 0 评论 -
【Bert】(十三)简易问答系统--源码解析(测试)
上一篇博客介绍的损失部分就涉及训练的过程。本篇介绍一下测试。按照上一篇博客介绍损失时,start_logits选取最大的概率值作为起始位置与真实起始位置比较,end_logits选取最大的概率值作为终止位置与真实终止位置比较。那么直观观念上测试只需要分别选取start_logits和end_logits的最大值,就能得到起始位置和终止位置。但是会碰到如下几个问题(1)很多时候句子达不到设定的seq_length的长度,假如设定输入模型的整个句子的向量长度为384,但是实际问题+段落的长度才181原创 2022-03-10 16:42:33 · 1581 阅读 · 0 评论 -
【Bert】(十二)简易问答系统--源码解析(bert后处理模型+损失函数)
论文:https://arxiv.org/pdf/1810.04805.pdf官方代码:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERTbert后处理模型损失函数原创 2022-03-10 11:00:00 · 2429 阅读 · 0 评论 -
【Bert】(十一)简易问答系统--源码解析(bert基础模型)
【Bert】(六)句子关系判断--源码解析(bert基础模型)_mjiansun的专栏-CSDN博客转载 2022-03-08 17:03:22 · 264 阅读 · 0 评论 -
【Bert】(十)简易问答系统--数据解析
论文:https://arxiv.org/pdf/1810.04805.pdf官方代码:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT1. 读取数据在run_squad.py的read_squad_examples(input_file,is_training)函数是处理train-v1.1.json文件的。如果阅读过【Bert】(八)简易问答系统--数据介绍及标注_mjians.原创 2022-03-08 16:59:54 · 961 阅读 · 2 评论 -
【Bert】(九)简易问答系统--跑通代码
论文:https://arxiv.org/pdf/1810.04805.pdf官方代码:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT跑通代码环境配置1、安装anaconda环境2、执行如下代码配置环境,不需要额外安装cuda和cudnn,如下的安装方式已经在环境中自动安装了cuda和cudnn,但只在conda叫bert的这个环境中生效,并不影响你原来安装的cuda和cud.原创 2022-03-08 13:59:23 · 599 阅读 · 0 评论 -
【Bert】(八)简易问答系统--数据介绍及标注
论文:https://arxiv.org/pdf/1810.04805.pdf官方代码:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT损失优化器原创 2022-03-08 11:14:32 · 1221 阅读 · 0 评论 -
【Bert】(七)句子关系判断--源码解析(bert后处理模型+损失函数)
论文:https://arxiv.org/pdf/1810.04805.pdf官方代码:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERTBert后处理模型原创 2022-03-07 14:32:19 · 1161 阅读 · 0 评论 -
【Bert】(六)句子关系判断--源码解析(bert基础模型)
bert基础模型bert模型后处理损失优化器转载 2022-03-04 17:15:42 · 2884 阅读 · 0 评论 -
常用NLP标注工具简单介绍
NLP标注工具YEDDA:(2016)(python)(可以在windows上装)优点是安装方便,程序很小,标注方便,如果要实现给同一个实体加多个标签,也可以实现。最大标签数8,界面也还过的去。https://github.com/jiesutd/YEDDADoccano:(2019)(可以在windows上装)我自己用的这个很好用支持命名实体识别,情感分类,机器翻译任务,界面比较友好。https://github.com/doccano/doccanoProdigy(2017)转载 2022-02-25 14:24:19 · 3961 阅读 · 2 评论 -
【Bert】(五)句子关系判断--bert模型中的transformer
作者:龙心尘时间:2019年1月出处:图解Transformer(完整版)_龙心尘-CSDN博客_transformer审校:百度NLP、龙心尘翻译:张驰、毅航、Conrad原作者:Jay Alammar原链接:The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time.编者按:前一段时间谷歌推出的BERT模型在11项NLP任务中夺得SOTA结果,引..转载 2022-03-03 09:33:10 · 1277 阅读 · 0 评论 -
【Bert】(三)句子关系判断--跑通代码
论文:https://arxiv.org/pdf/1810.04805.pdf官方代码:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT跑通代码环境配置1、安装anaconda环境2、执行如下代码配置环境,不需要额外安装cuda和cudnn,如下的安装方式已经在环境中自动安装了cuda和cudnn,但只在conda叫bert的这个环境中生效,并不影响你原来安装的cuda和cud.原创 2022-03-02 17:01:56 · 626 阅读 · 0 评论 -
【Bert】(四)句子关系判断--源码解析(解析数据)
数据处理--读取数据具体代码位于run_classifier.py文件中。这里就是将数据一行行读取出来。基础数据类,后续的数据类都继承于该类。class DataProcessor(object): """Base class for data converters for sequence classification data sets.""" def get_train_examples(self, data_dir): """Gets a collection of原创 2022-03-02 16:59:14 · 1198 阅读 · 1 评论 -
【Bert】(二)句子关系判断--数据介绍及标注
论文:https://arxiv.org/pdf/1810.04805.pdf官方代码:GitHub - google-research/bert: TensorFlow code and pre-trained models for BERT数据官方的分类任务例子,也就是判断两句话意思是否一致。数据下载原始下载链接:https://gluebenchmark.com/tasks如果网速不好,我已上传百度云:链接:https://pan.baidu.com/s/1zx1f4.原创 2022-03-02 10:55:28 · 1102 阅读 · 0 评论 -
【Bert】(一)使用场景
任务总结1、序列标注:分词,词性标注,命名实体识别(NER)命名实体识别:找出一句话中的感兴趣实体,例如找一句话中的地址名,人名等。分词:(还在学习中,请参考NLP ---分词详解(常见的五种分词技术二)_进击的菜鸟-CSDN博客_分词)。词性标注:例如找出一句话中的名词,动词等。2、分类任务:文本分类,情感计算文本分类:例如判断淘宝的评价为正面的还是负面的。情感计算:(还在学习中)。3、句子关系判断:entailment(分类为蕴含或矛盾),相似度计算entailmen原创 2022-03-01 15:41:22 · 814 阅读 · 0 评论