机器学习项目（六）医疗知识图谱构建（三）

最新推荐文章于 2021-08-10 21:40:36 发布

TongYixuan_LUT

最新推荐文章于 2021-08-10 21:40:36 发布

阅读量642

点赞数

分类专栏：机器学习实战文章标签： python tensorflow 深度学习自然语言处理

本文链接：https://blog.csdn.net/qq_33357094/article/details/106217528

版权

BiLstm & CRF

RNN 三个门结构 -> LSTM：门结构合并->GRU
传递顺序改变->BiLSTM
激活函数改变->libLSTM

为什么要使用CRF

CRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中，这些约束可以通过CRF层自动学习到

句子中第一个词总是以标签“B-”或者“O”开始，而不是“I-”
标签“B-label1 I-label2 I-lable3 I-…”,label1,label2,label3应该属于同一类实体，例如，“B-Person I-Person”是合法的序列，但是“B-Person I-Organization”是非法标签序列。
标签序列“O I-label”是非法的，实体标签的首个标签应该是“B-”,而非“I-”，换句话说，有效的标签序列应该是“O B-label”

import tensorflow as tf
import numpy as np
import os, argparse, time, random
from zhishi_tupu.model import BiLSTM_CRF
from zhishi_tupu.utils import str2bool, get_logger, get_entity
from zhishi_tupu.data import read_corpus, read_dictionary, tag2label, random_embedding


## Session configuration
os.environ['CUDA_VISIBLE_DEVICES'] = '0'
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2'  # default: 0
config = tf.ConfigProto()
config.gpu_options.allow_growth = True
config.gpu_options.per_process_gpu_memory_fraction = 0.2  # need ~700MB GPU memory


## hyperparameters
parser = argparse.ArgumentParser(description='BiLSTM-CRF for Chinese NER task')
parser.add_argument('--train_data', type=str, default='data_path', help='train data source')
parser.add_argument('--test_data', type=str, default='data_path', help='test data source')
parser.add_argument('--batch_size', type=int, default=64, help='#sample of each minibatch')
parser.add_argument('--epoch', type=int, default=40, help='#epoch of training')
parser.add_argument('--hidden_dim', type=int, default=300, help='#dim of hidden state')
parser.add_argument('--optimizer', type=str, default='Adam', help='Adam/Adadelta/Adagrad/RMSProp/Momentum/SGD')
parser.add_argument('--CRF', type=str2bool, default=True, help='use CRF at the top layer. if False, use Softmax')
parser.add_argument('--lr', type=float, default=0.001, help='learning rate')
parser.add_argument('--clip', type=float, default=5.0, help='gradient clipping')
parser.add_argument('--dropout', type=float, default=0.5, help='dropout keep_prob')
parser.add_argument('--update_embedding', type=str2bool, default=True, help='update embedding during training')
parser.add_argument('--pretrain_embedding', type=str, default='random', help='use pretrained char embedding or init it randomly')
parser.add_argument('--embedding_dim', type=int, default=300, help='random init char embedding_dim')
parser.add_argument('--shuffle', type=str2bool, default=True, help='shuffle training data before each epoch')
parser.add_argument('--mode', type=str, default='demo', help='train/test/demo')
parser.add_argument('--demo_model', type=str, default='1521112368', help='model for test and demo')
args = parser.parse_args()


## get char embeddings
# 采用预训练编码
word2id = read_dictionary(os.path.join('.', args.train_data, 'word2id.pkl'))
if args.pretrain_embedding == 'random':
    embeddings = random_embedding(word2id, args.embedding_dim)
else:
    embedding_path = 'pretrain_embedding.npy'
    embeddings = np.array(np.load(embedding_path), dtype='float32')


## read corpus and get training data
if args.mode != 'demo':
    train_path = os.path.join('.', args.train_data, 'train_data')
    test_path = os.path.join('.', args.test_data, 'test_data')
    train_data = read_corpus(train_path)
    test_data = read_corpus(test_path); test_size = len(test_data)


## paths setting
paths = {
   }
timestamp = str(int(time.time())) if args.mode == 'train' else args.demo_model
output_path = os.path.join('.', args.train_data+"_save", timestamp)
if not os.path.exists(output_path): os.makedirs(output_path)
summary_path = os.path.join(output_path, "summaries")
paths['summary_path'] = summary_path
if not os.path.exists(summary_path): os.makedirs(summary_path)
model_path = os.path.join(output_path, "checkpoints/")
if not os.path.exists(model_path): os.makedirs(model_path)
ckpt_prefix = os.path.join(model_path, "model")
paths['model_path'] = ckpt_prefix
result_path = os.path.join(output_path, "results")
paths['result_path'] = result_path
if not os.path.exists(result_path): os.makedirs(result_path)
log_path = os.path.join(result_path, "log.txt")
paths['log_path'] = log_path
get_logger(log_path).info(str(args))

# 运行模型进行训练
## training model
if args.mode == 'train':
    # 运行BiLSTM_CRF模型
    model

最低0.47元/天解锁文章

TongYixuan_LUT

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习项目（六）医疗知识图谱构建（三）

BiLstm & CRFRNN 三个门结构 -> LSTM：门结构合并->GRU传递顺序改变->BiLSTM激活函数改变->libLSTM为什么要使用CRFCRF层可以为最后预测的标签添加一些约束来保证预测的标签是合法的。在训练数据训练过程中，这些约束可以通过CRF层自动学习到句子中第一个词总是以标签“B-”或者“O”开始，而不是“I-”标签“B-label1 I-label2 I-lable3 I-…”,label1,label2,label3应该属于同一类
复制链接

扫一扫