nlp
Lzj000lzj
这个作者很懒,什么都没留下…
展开
-
word2vec
CBOW输入:c个上下文的onehot 大小为C*Vlook up table矩阵W:大小为V*N中间层:embedidng之后的词向量 大小为1N(将CN的C个词向量求平均作为词向量)矩阵W’用于将词向量转化为1*V大小,转化后的结果与这个词的实际onehot误差越小越好...转载 2019-05-31 15:20:31 · 116 阅读 · 0 评论 -
pytorch RNN(构建多个相似结构的模型)
加载数据(简单看)from __future__ import unicode_literals, print_function, divisionfrom io import openimport globimport osimport unicodedataimport stringall_letters = string.ascii_letters + " .,;'-"n_...转载 2019-07-05 17:16:50 · 866 阅读 · 0 评论 -
pytorch RNN实现分类
数据加载(简单看)from __future__ import unicode_literals, print_function, divisionfrom io import openimport globimport osimport torchdef findFiles(path): return glob.glob(path)#print(findFiles('data/n...原创 2019-07-06 15:56:34 · 3953 阅读 · 1 评论 -
keras使用word2cev在imdb数据集上做词嵌入,构建embedding矩阵
数据加载import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrixf...转载 2019-07-10 18:28:55 · 1097 阅读 · 0 评论 -
keras.Sequential 实现简单的文本分类
IMDB数据imdb=keras.datasets.imdb(train_x, train_y), (test_x, text_y)=keras.datasets.imdb.load_data(num_words=10000)#参数num_words=10000表示数据集保留了最常出现的10,000个单词。为了保持数据大小的可处理性,罕见的单词会被丢弃。print(type(train_x...转载 2019-06-29 10:01:32 · 551 阅读 · 0 评论 -
NLP的特征工程及数据预处理的分类
cleaning大小写同一解码去特殊符号修剪单词内部的错误符号tokenizingtokenizeN-Gramsskip-gramschar-gramsremove清除停用词,稀有单词roots修剪单词的前几个字符修正单词回词根...原创 2019-07-13 16:14:33 · 375 阅读 · 1 评论 -
pytorch RNN处理文本
数据预处理见 NLP数据预处理 词的编码以及取batchimport torchimport torch.nn as nnimport numpy as npfrom torch.nn.utils import clip_grad_norm_from data_utils import Dictionary, Corpus# Device configurationdevice...转载 2019-07-07 19:29:57 · 906 阅读 · 0 评论 -
NLP数据预处理
词的编码以及取batchimport torchimport osclass Dictionary(object): def __init__(self): self.word2idx = {} self.idx2word = {} self.idx = 0 def add_word(self, word): ...转载 2019-07-07 18:09:45 · 680 阅读 · 0 评论 -
tensorflow做简单的词嵌入
加载数据vocab_size = 10000(train_x, train_y), (test_x, text_y) = keras.datasets.imdb.load_data(num_words=vocab_size)print(train_x[0])print(train_x[1])数据预处理word_index = keras.datasets.imdb.get_word_...转载 2019-07-01 17:37:39 · 436 阅读 · 0 评论 -
tensorflow RNN-LSTM-GRU
RNN循环神经网络如图1所示。每个节点在一个时间步中接受来自 前一个节点 的输入,我们取一个输入x_i和a_i-1(前一个节点的输出)并对其执行计算,生成一个输出h_i。这个输出被获取并提供给下一个节点。这个过程一直持续到所有的时间步都得到评估。LSTMRNN的缺点是,随着时间步的变长,它不能从后面很远的时间步中获得上下文,RNN只能记住短期记忆序列。LSTM网络的结构与RNN相...转载 2019-06-03 17:02:32 · 164 阅读 · 0 评论 -
用keras使用glove预训练的词向量来构建实验的embedding矩阵-以Jigsaw Unintended Bias in Toxicity Classification比赛baseline为例
数据加载import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)import os# print(os.listdir("../input"))# print(os.listdir("../input/crawl300d2m"))...原创 2019-07-11 16:27:37 · 1452 阅读 · 1 评论