NLP
文章平均质量分 59
自然语言处理
myaijarvis
开发不会,机器不学,自然语言不理
欢迎一起讨论O_o
展开
-
【NLP】词向量 笔记
目的:记录自己感觉经常忘的部分、和理解不深的知识点。原创 2023-04-04 21:36:34 · 152 阅读 · 1 评论 -
【NLP】【TextCNN】 文本分类
必看:【参考:【论文笔记】:Convolutional Neural Networks for Sentence Classification用CNN做句子分类 - 小千同学超级爱写代码 - 博客园】【参考:卷积在NLP领域的应用–以TextCNN为例_哔哩哔哩_bilibili】【参考:论文阅读:Convolutional Neural Networks for Sentence Classification 卷积神经网络的句子分类_南有芙蕖-CSDN博客】【参考:TextCNN天池授课_哔哩哔哩_bil原创 2022-06-29 22:12:01 · 476 阅读 · 0 评论 -
【NLP】神经网络语言模型NNLM
《A Neural Probabilistic Language Model》其中双曲正切 tanh 逐个元素地应用,W 可选为零(无直接连接),x 是词特征层激活向量,它是来自矩阵 C 的输入词特征的串联:【参考:graykode/nlp-tutorial: Natural Language Processing Tutorial for Deep Learning Researchers】【参考:Neural Network Language Model PyTorch实现_哔哩哔哩_bilibili原创 2022-06-13 21:56:12 · 288 阅读 · 0 评论 -
【Pytroch】Transformer实现、einsum函数
【参考:一个函数打天下,einsum - 知乎】【参考:Machine-Learning-Collection/transformer_from_scratch.py at master · aladdinpersson/Machine-Learning-Collection】理解Transformer【参考:Pytorch Transformers from Scratch (Attention is all you need) - YouTube】【参考:Machine-Learning-Col原创 2022-06-03 17:55:07 · 823 阅读 · 0 评论 -
【NLP】Seq2Seq 翻译
【参考:Seq2Seq 机器翻译, 全程手写代码_哔哩哔哩_bilibili】【参考:shouxieai/seq2seq_translation: seq2seq_translation】代码总结训练Seq2Seq就相当于用decoder接一个全连接层做多分类,而预测的时候则需要先输入一个字符进行预测,然后把这个预测输出的字符作为下一次的输出。原创 2022-06-02 16:09:14 · 412 阅读 · 0 评论 -
【NLP】怎样阅读NLP论文 && 如何做好文献阅读及笔记整理
【参考:怎样阅读NLP论文_哔哩哔哩_bilibili】【参考:如何阅读NLP论文笔记_12Struggle的博客-CSDN博客】【参考:怎样阅读NLP论文_百度搜索】转载 2022-06-01 19:51:48 · 236 阅读 · 0 评论 -
【PaddleNLP】恶意网页识别(五):用BERT识别恶意网页内容
【参考:使用PaddleNLP进行恶意网页识别(五):用BERT识别恶意网页内容 - 飞桨AI Studio】代码更新,仿造pytorch,特此记录import osimport sysimport codecs # 编码转换import chardet # 第三方编码检测模块import shutilimport reimport timeimport numpy as npimport pandas as pdimport jiebafrom tqdm import tqdm,原创 2022-05-20 21:19:30 · 857 阅读 · 0 评论 -
【NLP】 BERT微博评论情感分类
【参考:HuggingFace学习2:使用Bert模型训练文本分类任务_呆萌的代Ma的博客-CSDN博客】数据集:【参考:利用LSTM+CNN+glove词向量预训练模型进行微博评论情感分析(二分类)_你们卷的我睡不着QAQ的博客-CSDN博客】文本处理import pandas as pdimport numpy as npdf = pd.read_csv("weibo_senti_100k.csv", encoding="gbk")df.head()import redf.in原创 2022-05-09 22:40:32 · 4210 阅读 · 3 评论 -
【NLP】Transformer理解(Pytorch实现)
蓝斯诺特【参考:Transformer简明教程, 从理论到代码实现到项目实战, NLP进阶必知必会._哔哩哔哩_bilibili】举了一个实例,计算过程浅显易懂【参考:NLP - Transformer_伊织_的博客-CSDN博客】【参考:lansinuote/Transformer_Example | github】下面略有修改import torchimport randomimport numpy as npimport mathtorch.manual_seed(100)m原创 2022-05-06 22:21:12 · 544 阅读 · 0 评论 -
【NLP】RNN理解(Pytorch实现)
【参考:【循环神经网络】5分钟搞懂RNN,3D动画深入浅出_哔哩哔哩_bilibili】参数理解上面这张图最能表明RNN的运行原理【参考:pytorch中RNN参数的详细解释_lwgkzl的博客-CSDN博客】自己的笔记 【参考:【PyTorch深度学习实践 | 刘二大人】B站视频教程笔记_myaijarvis的博客-CSDN博客】多层、双向RNN【参考:循环神经网络的改进:多层RNN、双向RNN与预训练_DeepGeGe的博客-CSDN博客】...原创 2022-05-03 12:34:36 · 2711 阅读 · 2 评论 -
【NLP】BiLSTM 命名实体识别 手写代码
【参考:pytorch_BiLSTM 命名实体识别 手写代码_哔哩哔哩_bilibili】【参考:shouxieai/nlp-bilstm_crf-ner: nlp-bilstm+crf-ner】"""2022/4/22"""import osimport numpy as npimport torchimport torch.nn as nnfrom torch.utils.data import DataLoader, Datasetimport torch.optim as op原创 2022-04-23 17:59:22 · 2520 阅读 · 0 评论 -
【NLP】HMM隐马尔可夫+维特比分词
【参考:NLP-HMM隐马尔可夫+维特比分词,代码+数据+讲解_哔哩哔哩_bilibili】 ppt浅显易懂【参考:shouxieai/nlp-hmm-word-cut: nlp-hmm-word-cut】如何通俗地讲解 viterbi 算法? - 路生的回答 - 知乎如何通俗地讲解 viterbi 算法? - JustCoder的回答 - 知乎PPT代码import picklefrom tqdm import tqdmimport numpy as npimport os原创 2022-04-22 20:52:45 · 309 阅读 · 0 评论 -
【NLP】word2vec 模型
参考:《深度学习从0到1-基于Tensorflow2》CBOW连续词袋模型 CBOW(Continuous Bag of-Words)CBOW 模型是给神经网络传入上下文词汇,然后预测目标词汇。比如我们有一个用于训练的句子是“我爱北京天安门“,可以给模型传入“爱”和“天安门“,然后用”北京“作为要预测的目标词汇。而最简单的CBOW 模型就是传入前一个词然后再预测后一个词。Skip-GramSkip-Gram 模型是给神经网络传入一个词汇,然后预测其上下文词汇。PyTorch实现(乞丐版)【原创 2022-03-19 11:22:49 · 4172 阅读 · 0 评论 -
【论文】【NLP】Attention Is All Y ou Need(注意力是你所需要的)
【参考:[1706.03762] Attention Is All You Need】2017【参考:详解Transformer (Attention Is All You Need) - 知乎】Abstract主要的序列转换模型是基于复杂的循环或卷积神经网络,包括编码器和解码器。性能最好的模型还通过注意机制连接编码器和解码器。我们提出了一种新的简单网络架构——Transformer,它完全基于注意力机制,完全摒弃了递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优,同时具有更强的并行性转载 2022-03-18 16:31:59 · 1947 阅读 · 0 评论 -
【NLP】Google 《NLP 从入门到精通》视频
【参考:NLP 从入门到精通(全六讲)_哔哩哔哩_bilibili】分词 Tokenizationimport tensorflow as tffrom tensorflow import kerasfrom keras.preprocessing.text import Tokenizersentences=[ 'I love my dog', 'I love my cat']# num_words 需要保留的最大单词数tokenizer = Tokenizer(nu原创 2022-03-18 16:27:18 · 392 阅读 · 0 评论