自然语言处理
Alphapeople
这个作者很懒,什么都没留下…
展开
-
问答系统搭建过程
检索式的问答系统问答系统所需要的数据已经提供,对于每一个问题都可以找得到相应的答案,所以可以理解为每一个样本数据是 <问题、答案>。 那系统的核心是当用户输入一个问题的时候,首先要找到跟这个问题最相近的已经存储在库里的问题,然后直接返回相应的答案即可(但实际上也可以抽取其中的实体或者关键词)。 举一个简单的例子:假设我们的库里面已有存在以下几个<问题,答案>:<"{}主要做什么方面的业务?”, “他们主要做人工智能方面的教育”> <“国内有哪些做人工智原创 2020-11-25 16:26:19 · 1157 阅读 · 0 评论 -
HMM代码
# 初始化词典tag2id, id2tag = {},{}word2id, id2word = {},{}#建立词典for line in open("traindata.txt"): items = line.split("/") word, tag = items[0],items[1].rstrip() if word not in word2id: word2id[word]=len(word2id) id2word[len(id.原创 2020-11-25 14:32:56 · 358 阅读 · 0 评论 -
BiLSTM+CRF命名实体识别的pytorch实现
import torchimport torch.nn as nnimport torch.optim as optimtorch.manual_seed(1)# some helper functionsdef argmax(vec): # return the argmax as a python int # 第1维度上最大值的下标 # input: tensor([[2,3,4]]) # output: 2 _, idx = torch.max(.原创 2020-11-25 14:30:34 · 1220 阅读 · 0 评论 -
使用torchvision.transforms填充图像
from torchvision import transformsfrom PIL import Imageimg = Image.open(r'C:\Users\Administrator\Pictures\test.jpg')pad = max(img.size)size = (pad,pad)transform = transforms.Compose([ transforms.CenterCrop(size)])pad = transform(img)pad.s.原创 2020-11-19 15:11:11 · 687 阅读 · 0 评论 -
transformers训练自己的数据集实战
"""使用IMDb评论进行序列分类"""#先下载数据# wget http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz# tar -xf aclImdb_v1.tar.gz#整理文件from pathlib import Pathdef read_imdb_split(split_dir): split_dir = Path(split_dir) texts = [] labels = [].原创 2020-11-19 14:21:10 · 5077 阅读 · 2 评论 -
transformers 训练
from transformers import BertForSequenceClassificationimport torchmodel = BertForSequenceClassification.from_pretrained('bert-base-uncased', return_dict=True)model.train()from transformers import AdamWno_decay = ['bias', 'LayerNorm.weight']optimizer.原创 2020-11-19 11:44:33 · 539 阅读 · 0 评论 -
Transformers学习4
from transformers import pipelinefrom pprint import pprint"""掩码语言建模"""nlp = pipeline("fill-mask")pprint(nlp(f"HuggingFace is creating a {nlp.tokenizer.mask_token} that the community uses to solve NLP tasks."))from transformers import AutoModelWit.原创 2020-11-19 11:03:56 · 711 阅读 · 0 评论 -
transformers学习3
from transformers import pipeline"""句子情感分析"""nlp = pipeline("sentiment-analysis")result = nlp('Trump dismisses director of cybersecurity')[0]from transformers import AutoTokenizer,AutoModelForSequenceClassificationimport torch"""序列分类"""token.转载 2020-11-18 15:57:29 · 275 阅读 · 0 评论 -
GPT生成文本
import torchfrom transformers import GPT2Tokenizer, GPT2LMHeadModel# 可选:如果您想了解发生的信息,请按以下步骤loggerimport logginglogging.basicConfig(level=logging.INFO)# 加载预训练模型(权重)tokenizer = GPT2Tokenizer.from_pretrained('gpt2')# 编码输入text = "Who was Jim Henson .原创 2020-11-18 09:36:47 · 2008 阅读 · 1 评论 -
bert预测被掩住的字
import torchfrom transformers import BertTokenizer, BertModel, BertForMaskedLM# OPTIONAL: if you want to have more information on what's happening under the hood, activate the logger as followsimport logginglogging.basicConfig(level=logging.INFO)# .原创 2020-11-17 17:47:43 · 752 阅读 · 0 评论 -
pdf翻译成中文并导出word
#!/usr/bin/env python# Version = 3.5.2# __auth__ = '无名小妖'from pdfminer.pdfparser import PDFParser, PDFDocumentfrom pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreterfrom pdfminer.layout import LAParamsfrom pdfminer.converter import PDF.原创 2020-08-07 11:20:33 · 457 阅读 · 0 评论 -
NLP文本的表示
一、计算两字符串的编辑距离二、wordtovec的方法原创 2020-04-02 09:05:03 · 142 阅读 · 0 评论 -
transformer代码
import torchimport numpy as np#定义输入数据x = [ [1, 0, 1, 0], # Input 1 [0, 2, 0, 2], # Input 2 [1, 1, 1, 1] # Input 3 ]x = torch.tensor(np.array(x),dtype=torch.float32)#初始化KQV的权重w_key = [...转载 2019-11-28 16:04:00 · 376 阅读 · 0 评论 -
pytorch实现用CNN和LSTM对文本进行分类
model.py:#!/usr/bin/python# -*- coding: utf-8 -*-import torchfrom torch import nnimport numpy as npfrom torch.autograd import Variableimport torch.nn.functional as Fclass TextRNN(nn.Modul...原创 2019-05-27 17:00:19 · 17637 阅读 · 5 评论 -
用BILSTM+CRF模型进行命名实体识别
原文地址:https://arxiv.org/pdf/1603.01360.pdf 摘要 命名实体识别的最先进系统严重地依赖手工生产特征和特定领域的知识,以便有效地从现有的小型、有监督的训练语料库中学习。本文介绍了基于双向LSTMS和条件随机场的两种新的神经结构,另一种...翻译 2019-05-24 21:09:12 · 7787 阅读 · 0 评论 -
tensorflow搭建CNN对文本进行分类
加载数据cnews_loader.py:# coding: utf-8import sysfrom collections import Counterimport numpy as npimport tensorflow.contrib.keras as krif sys.version_info[0] > 2: is_py3 = Trueelse: ...原创 2019-05-11 17:29:34 · 1285 阅读 · 0 评论 -
Tensorflow搭建LSTM对文本进行分类
rnn_model.py:#!/usr/bin/python# -*- coding: utf-8 -*-import tensorflow as tfclass TRNNConfig(object): """RNN配置参数""" # 模型参数 embedding_dim = 64 # 词向量维度 seq_length = 600 ...原创 2019-05-19 11:05:13 · 1245 阅读 · 2 评论