篱下浅歌生-CSDN博客

原创基于聚类的文本摘要实现

文章目录基于聚类的文本摘要实现一、文件目录二、聚类摘要(main.py)实验结果基于聚类的文本摘要实现实现步骤：一、文件目录二、聚类摘要(main.py)import reimport torchfrom transformers import BertTokenizer#中文分词器from transformers import AlbertModel#Albert预训练模型获得embeddingfrom nltk.cluster import KMeansClusterer#k均

2022-05-03 11:32:47 915

原创 TextRank方法的优化——MMR(最大边界相关算法)

文章目录TextRank方法的优化——MMR(最大边界相关算法)一、文件目录二、TextRank(main.py)实验结果TextRank方法的优化——MMR(最大边界相关算法)TextRank的优点：在于不需要标注数据，不需要进行预训练，效果尚可。但是缺点也很明显。从其核心思想可以看出来，它挑选摘要句时会侧重于挑选那些与很多句子相似度高的句子。因此，最后会导致挑选的很多句子冗余度比较高，从而遗漏一些带有其他主题信息却“势单力薄“的句子。MMR算法：又叫最大边界相关算法，此算法在设计之初是用来计

2022-05-02 17:16:36 1131 3

原创基于图排序的方法：TextRank (中文摘要)

文章目录基于图排序的方法：TextRank一、文件目录二、语料集三、数据处理(bulid_data.py)(data_utils.py)四、NERModel模型（ner_model.py）五、BiLSTM-CRF+ELMO模型训练流程（ner_learner.py）六、计算loss值(CRF)七、训练(train.py)八、测试(test.py)实验结果基于图排序的方法：TextRank原理：重要的页面容易为其他页面引用一、文件目录二、语料集CoNLL 2003 NER ：数据集第一列

2022-04-30 16:57:37 561

原创【bug解决】AttributeError: ‘Embedding‘ object has no attribute ‘outbound_nodes‘

【bug解决】AttributeError: ‘Embedding’ object has no attribute ‘outbound_nodes’代码：解决方法：版本问题，安装pip install keras_layer_normalization==0.13.0

2022-04-24 21:35:52 2082

原创【bug解决】No OpKernel was registered to support Op ‘CudnnRNN‘ with these attrs.

# 【bug解决】No OpKernel was registered to support Op ‘CudnnRNN’ with these attrs.解决方法：使用tensorflow-gpu==1.12可以解决

2022-04-24 21:26:53 895

原创 elmo(BiLSTM-CRF+elmo)（Conll-2003 命名实体识别NER）

文章目录elmo(Bi-lm)（命名实体识别BiLSTM-CRF+elmo）一、文件目录二、语料集三、数据处理(data_utils.py)(vocabulary.py)四、模型（mem_transformer.py）五、训练(train.py)六、计算loss值(proj_adaptive_softmax.py)实验结果elmo(Bi-lm)（命名实体识别BiLSTM-CRF+elmo）Bidirectional laguage models:elmo:elmo下游任务：一、文件

2022-04-19 20:46:16 3001 3

原创 transformer-xl（片段级递归机制+相对位置编码）（wikitext-103 语言模型）

文章目录transformer-xl（片段级递归机制+相对位置编码）一、文件目录二、语料集三、数据处理(data_utils.py)(vocabulary.py)四、模型（mem_transformer.py）五、训练(train.py)六、计算loss值(proj_adaptive_softmax.py)实验结果transformer-xl（片段级递归机制+相对位置编码）片段级递归机制：相对位置编码：一、文件目录二、语料集wikitext-103三、数据处理(data_ut

2022-04-13 22:44:07 4470 1

原创 sgm（seq2seq+attention+globel embedding）（多标签分类）

文章目录sgm（seq2seq+attention+globel embedding）sgm（seq2seq+attention+globel embedding）sgm :Encoder (双向LSTM）：Decoder (LSTM + attention) :Output (两层全连接+softmax) ：Global Embedding :

2022-04-01 21:08:14 228

原创 transformer（seq2seq + Multi-Head self-Attention）(multi30k-机器翻译)

文章目录transformer（seq2seq + Multi-Head self-Attention）transformer（seq2seq + Multi-Head self-Attention）transformer :Multi-head Self-attention:Feed-Forward Network :Positional Encoding :Mask :Layer Normalization :

2022-04-01 20:54:55 359

原创 han_attention（双向GRU+attention）(imdb数据集---文档分类）

文章目录han_attention（双向GRU+attention）一、文件目录二、语料集下载地址（本文选择AG）三、数据处理(AG_Dataset.py)四、模型（Attention_NMT_Model.py）五、训练和测试实验结果han_attention（双向GRU+attention）词编码：词级别的注意力机制：句子编码：句子级别的注意力机制：一、文件目录二、语料集下载地址（本文选择AG）https://wit3.fbk.eu/2014-01三、数据处理(AG_Dat

2022-03-20 22:13:14 3535 10

原创 attention_nmt(attention+seq2seq)（iwslt数据集---机器翻译）

文章目录attention_nmt(attention+seq2seq)一、文件目录二、语料集下载地址（本文选择AG）三、数据处理(AG_Dataset.py)四、模型（Deep_NMT_Model.py）五、训练和测试实验结果attention_nmt(attention+seq2seq)一、文件目录二、语料集下载地址（本文选择AG）https://wit3.fbk.eu/2014-01三、数据处理(AG_Dataset.py)1.数据集加载2.读取标签和数据3.创建word2i

2022-03-16 21:28:41 1305

原创 deep_nmt(seq2seq)（iwslt数据集---机器翻译）

文章目录deep_nmt(seq2seq)一、文件目录二、语料集下载地址（本文选择AG）三、数据处理(AG_Dataset.py)四、模型（Fasttext.py）五、训练和测试实验结果deep_nmt(seq2seq)一、文件目录二、语料集下载地址（本文选择AG）https://wit3.fbk.eu/2014-01三、数据处理(AG_Dataset.py)1.数据集加载2.读取标签和数据3.创建word2id（源语言和目标语言） 3.1统计词频

2022-03-08 17:58:46 2145 1

原创 Fasttext（AG数据集---新闻主题分类）

文章目录Fasttext一、文件目录二、语料集下载地址（本文选择AG）三、数据处理(AG_Dataset.py)四、模型（Fasttext.py）五、训练和测试实验结果Fasttext一、文件目录二、语料集下载地址（本文选择AG）AG News: https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgzDBPedia: https://s3.amazonaws.com/fast-ai-nlp/dbpedia_csv.tgzSogou news

2022-03-05 16:11:19 1594 3

原创 CharTextCNN（AG数据集---新闻主题分类）

2.2 数据集下载AG News: https://s3.amazonaws.com/fast-ai-nlp/ag_news_csv.tgzDBPedia: https://s3.amazonaws.com/fast-ai-nlp/dbpedia_csv.tgzSogou news: https://s3.amazonaws.com/fast-ai-nlp/sogou_news_csv.tgzYelp Review Polarity: https://s3.amazonaws.com/fast-ai

2022-02-28 22:31:38 711

原创 TextCNN（MR数据集----情感分类）

文章目录textcnn一、文件目录二、语料库（wiki_00）三、创建训练，测试，验证集四、构建word2id,char2id,特征,标签五、C2W模型构建六、训练和测试实验结果textcnn一、文件目录二、语料库（wiki_00）三、创建训练，测试，验证集import jsonimport nltk#导入数据datas = open("./wiki_00",encoding="utf-8").read().splitlines()#创建训练，测试，验证集f_train = o

2022-02-25 17:18:56 2226 2

原创 C2W（维基百科---语言模型)

文章目录C2W模型（双向LSTM）一、文件目录二、语料库（wiki_00）三、创建训练，测试，验证集四、构建word2id,char2id,特征,标签五、C2W模型构建六、训练和测试实验结果C2W模型（双向LSTM）一、文件目录二、语料库（wiki_00）三、创建训练，测试，验证集import jsonimport nltk#导入数据datas = open("./wiki_00",encoding="utf-8").read().splitlines()#创建训练，测试，验证集

2022-02-13 22:56:38 1100

原创 RNN模型

文章目录一、代码二、实现效果#RNN模型一、代码import torchimport torch.nn as nnx_input = torch.randn(2,3,10)class RNN(nn.Module): def __init__(self,input_size,hidden_size,batch_first=False): super(RNN,self).__init__() self.rnn_cell = nn.RNNCell(inp

2022-01-29 22:00:23 996

原创 MLP感知机

文章目录一、代码二、实现效果#MLP感知机一、代码import torchimport torch.nn as nnimport torch.nn.functional as Fx_input = torch.randn(2,3,10)class MLP(nn.Module): def __init__(self,input_dim,hidden_dim,output_dim): super(MLP,self).__init__() self.

2022-01-29 16:23:42 1506

原创 Bert使用

文章目录Bert一、代码二、实现效果Bert一、代码import torchfrom transformers import BertModel,BertTokenizerimport torch.nn as nnsentence = ‘i like eating apples very much’class Model (nn.Module):def init(self):super().init()self.embeder = BertModel.from_pretrained

2022-01-28 22:20:04 631

原创 Word2Vec

文章目录Word2Vec一、代码二、实现效果Word2Vec一、代码import numpy as npimport torch.nn as nnimport torch.optim as optimsentences = ["i like dog",'i like animal', "dog cat animal","apple cat dog like","cat like fish", "dog like meat","i like a

2022-01-28 16:50:04 1237

原创 RNN实现回归模型

文章目录RNN实现回归模型一、代码RNN实现回归模型用 sin 的曲线预测出 cos 的曲线.一、代码"""View more, visit my tutorial page: https://mofanpy.com/tutorials/My Youtube Channel: https://www.youtube.com/user/MorvanZhouDependencies:torch: 0.4matplotlibnumpy"""import torchfrom torch

2022-01-15 15:18:07 810

原创 RNN实现MNIST手写数据识别

文章目录RNN实现MNIST手写数据识别一、代码二、实现效果RNN实现MNIST手写数据识别一、代码import torchimport torchvision.datasetsfrom torch import nnimport torch.utils.data as DataEPOCH=1 #训练多少次BATCH_SIZE =64 #批训练数量TIME_STEP=28 #nn时间步数/图片高度INPUT_SIZE=28 #nn每步输入值/图片每行像素LR=0.01 #学习率D

2022-01-15 14:49:40 867

原创 CNN实现MNIST手写数据识别

文章目录CNN实现MNIST手写数据识别一、代码二、实现效果CNN实现MNIST手写数据识别一、代码# library# standard libraryimport os# third-party libraryimport torchimport torch.nn as nnimport torch.utils.data as Dataimport torchvisionimport matplotlib.pyplot as plt# torch.manual_seed(1

2022-01-14 22:11:29 282

原创 pytorch实现回归模型

文章目录pytorch实现回归模型一、代码二、实现效果pytorch实现回归模型一、代码import torchimport torch.nn.functional as Fimport matplotlib.pyplot as plt#建立数据集x = torch.unsqueeze(torch.linspace(-1,1,100),dim=1)# x data(tensor),shape(100,1)y = x.pow(2) + 0.2*torch.rand(x.size())#

2021-12-14 21:47:11 2494

原创使用隐马尔科夫模型标记词性

文章目录使用隐马尔科夫模型标记词性一、数据预处理二、主要方法三、代码实现实验结果使用隐马尔科夫模型标记词性一、数据预处理读入数据集后，将语料中的单词，如：中国/ns，中的‘中国’存入矩阵v=[]，‘ns’存入矩阵c=[]，并输入词性矩阵cx:二、主要方法三、代码实现数据集下载链接：https://wss1.cn/f/73kvwy7bhu6train.pyimport pandas as pdcx= ['a', 'aq', 'c', 'd', 'e', 'f', 'g'

2021-12-14 21:01:30 310

原创朴素贝叶斯实现书籍分类

文章目录朴素贝叶斯实现书籍分类一、数据集二、实现方法二、代码实验结果朴素贝叶斯实现书籍分类朴素贝叶斯是生成方法，直接找出特征输出Y和特征X的联合分布P(X,Y)P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)P(Y|X)=P(X,Y)/P(X)得出。一、数据集数据集链接：https://wss1.cn/f/73l1yh2yjny数据格式说明：X.YX表示书籍Y表示该书籍下不同章节目的：判断文本出自哪个书籍自行划分训练和测试集二、实现方法1．数据预处理（1）将原始数据的

2021-12-12 16:38:24 1612 3

原创基于TextRank算法的单领域多文本摘要（英文摘要）

文章目录基于TextRank算法的单领域多文本摘要一、实现步骤二、语料 tennis_articles_v4.csv三、实现代码四、实现效果基于TextRank算法的单领域多文本摘要一种抽取式的无监督的文本摘要方法详细介绍可看：http://blog.itpub.net/31562039/viewspace-2286669/https://www.analyticsvidhya.com/blog/2018/11/introduction-text-summarization-textrank-py

2021-11-30 19:51:19 724

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

multi_news 源数据集

multi_news document 500数据集

CNN/Daily Mail（简称CNN/DM）作为单文本摘要语料库，每篇摘要包含多个摘要句。

LCSTS中文数据集解析与处理

imdb数据集：电影用于文档分类。

iwslt14数据集：用于英语和法语之间的机器翻译。

AG数据集：新闻主题分类数据集，用于文本分类。

MR数据集：用于情感分析，包括积极评论和消极评论。

wiki_00数据集：维基百科，用于语言模型。

wikitext-103 数据集 ：从维基百科的 Good 与 Featured 文章中提炼，广泛用于语言模型。

multi30k数据集：用于英文与法语的机器翻译。

Conll-2003 数据集：第一列是单词，第二列是词性，第三列是语法，第四列是实体标签。在NER任务中，只关心一和四列。

ROC Stories Cloze Test 问答数据集 ：故事内容，正确回答，错误回答

人民币二分类（使用LeNet模型，将1元和100元人民币进行二分类）

空空如也

wikitext-103 数据集：从维基百科的 Good 与 Featured 文章中提炼，广泛用于语言模型。

ROC Stories Cloze Test 问答数据集：故事内容，正确回答，错误回答