tensorflow
文章平均质量分 72
这个冬天有点冷
做技术不要一知半解,不要被自己的努力所蒙蔽,懂就是懂!
展开
-
梯度消失和梯度爆炸原理
此方法来自Hinton在2006年发表的一篇论文,Hinton为了解决梯度的问题,提出采取无监督逐层训练方法,其基本思想是每次训练一层隐节点,训练时将上一层隐节点的输出作为输入,而本层隐节点的输出作为下一层隐节点的输入,此过程就是逐层“预训练”(pre-training);相比较于之前的网络结构,残差网络中有很多跨层连接结构(shortcut),这样的结构在反向传播时多了反向传播的路径,可以一定程度上解决梯度消失的问题。梯度消失产生的主要原因有:一是使用了深层网络,二是采用了不合适的损失函数。...原创 2022-08-04 16:03:24 · 187 阅读 · 0 评论 -
bert模型源码详细解读
一.bert配置参数解读 bert_config.json { "attention_probs_dropout_prob": 0.1, #乘法attention时,softmax后dropout概率 "directionality": "bidi", "hidden_act": "gelu", # 激活函数 "hidden_dropout_prob": 0.1, #隐藏层dr...原创 2020-04-28 19:14:13 · 4585 阅读 · 0 评论 -
双向bidirectional_dynamic_rnn()之 tf.reverse_sequence()详述
在看bidirectional_dynamic_rnn()的源码的时候,看到了为何可以双向的核心代码reverse_sequence(),下面就来说说双向bidirectional_dynamic_rnn()是如何进行反转的。 reverse_sequence( input, seq_lengths, seq_axis=None, batch_axis=None, name=N...原创 2020-04-10 11:55:57 · 232 阅读 · 0 评论 -
训练,验证,测试模型
# coding: utf-8 from BilstmModel.BilstmModel import BilstmModel from BilstmModel.cnn_model import TextCNN from DataProcess.DateProcess import process_file, build_word_to_id, build_lables_to_id, batch_...原创 2020-04-07 17:41:22 · 340 阅读 · 0 评论 -
NLP分类常用模型(三):bert 提取特征 + 全连接tf.layers.dense()
bert提取句向量特征: from bert_serving.client import BertClient # message 这个表示一个batch_size(cporch)数据 def _get_message_text(self, message): all_tokens = [] # msg 是某一句话 for msg in me...原创 2020-04-07 17:27:46 · 3532 阅读 · 0 评论 -
NLP分类常用模型(二):rnn多层 tf.nn.dynamic_rnn()+ 全连接tf.layers.dense()
"""文本分类,RNN模型""" def __init__(self): # 三个待输入的数据 self.x = tf.placeholder(tf.int32, [None, config.max_seq_length], name='x') self.y = tf.placeholder(tf.float32, [None, config...原创 2020-04-07 17:16:34 · 552 阅读 · 0 评论 -
NLP分类常用模型(一):一维卷积tf.layers.conv1d() + 全连接tf.layers.dense()
class TextCNN(object): """文本分类,CNN模型""" def __init__(self): # 三个待输入的数据 self.x = tf.placeholder(tf.int32, [None, config.max_seq_length], name='input_x') self.y = tf.pla...原创 2020-04-07 17:14:22 · 982 阅读 · 0 评论 -
tf.nn.embedding_lookup()详解
tf.nn.embedding_lookup(tensor,id)这个函数一般用于通过输入input_x的值,来获取权重大矩阵里面的每个字的向量。 a = tf.Variable(tf.random_normal([3,5],7,1)) b = tf.Variable(tf.nn.embedding_lookup(a,[0,2,1,0])) with tf.Session() as sess: ...原创 2018-12-12 12:00:51 · 1247 阅读 · 2 评论