tensorflow 构造网络

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

def add_layer(inputs, in_size, out_size, activation_function=None):
    Weights = tf.Variable(tf.random_normal([in_size, out_size]))
    biases = tf.Variable(tf.zeros([1, out_size]) + 0.1)
    Wx_plus_b = tf.matmul(inputs, Weights) + biases
    if activation_function is None:
        outputs = Wx_plus_b
    else:
        outputs = activation_function(Wx_plus_b)
    return outputs

# Make up some real data
x_data = np.linspace(-1, 1, 300)[:, np.newaxis]
noise = np.random.normal(0, 0.05, x_data.shape)
y_data = np.square(x_data) - 0.5 + noise

##plt.scatter(x_data, y_data)
##plt.show()

# define placeholder for inputs to network
xs = tf.placeholder(tf.float32, [None, 1])
ys = tf.placeholder(tf.float32, [None, 1])
# add hidden layer
l1 = add_layer(xs, 1, 10, activation_function=tf.nn.relu)
# add output layer
prediction = add_layer(l1, 10, 1, activation_function=None)

# the error between prediction and real data
loss = tf.reduce_mean(tf.reduce_sum(tf.square(ys-prediction), reduction_indices=[1]))
train_step = tf.train.GradientDescentOptimizer(0.1).minimize(loss)
# important step
sess = tf.Session()
# tf.initialize_all_variables() no long valid from
# 2017-03-02 if using tensorflow >= 0.12
if int((tf.__version__).split('.')[1]) < 12 and int((tf.__version__).split('.')[0]) < 1:
    init = tf.initialize_all_variables()
else:
    init = tf.global_variables_initializer()
sess.run(init)

# plot the real data
fig = plt.figure()
ax = fig.add_subplot(1,1,1)
ax.scatter(x_data, y_data)
#plt.ion()
plt.show(block= False)


for i in range(1000):
    # training
    sess.run(train_step, feed_dict={xs: x_data, ys: y_data})
    if i % 50 == 0:
        # to visualize the result and improvement
        try:
            ax.lines.remove(lines[0])
        except Exception:
            pass
        prediction_value = sess.run(prediction, feed_dict={xs: x_data})
        # plot the prediction
        lines = ax.plot(x_data, prediction_value, 'r-', lw=5)
        plt.pause(1)

这里写图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
构建Transformer模型的过程主要分为以下几个步骤: 1. 定义输入和输出 Transformer模型的输入通常包括源序列和目标序列,源序列和目标序列都需要经过词嵌入层(Embedding Layer)进行编码。同时,目标序列还需要进行位置编码(Positional Encoding),以便模型能够处理序列中的位置信息。输出是目标序列的预测值,即下一个词的概率分布。 2. 定义编码器和解码器 Transformer模型包含一个编码器(Encoder)和一个解码器(Decoder)。编码器将源序列编码成一个上下文向量,解码器使用上下文向量和目标序列的编码进行解码,生成下一个词的概率分布。 3. 定义自注意力层和前馈网络层 编码器和解码器都包含多个自注意力层(Self-Attention Layer)和前馈网络层(Feedforward Layer)。自注意力层用于捕捉序列中的长程依赖关系,前馈网络层用于增强模型的表达能力。 4. 定义损失函数和优化器 Transformer模型的损失函数通常采用交叉熵损失函数,优化器可以选择Adam优化器。 5. 训练模型并进行预测 使用训练数据对模型进行训练,并使用验证数据对模型进行验证。训练完成后,使用测试数据对模型进行测试,并对新的输入序列进行预测。 以上是构建Transformer模型的主要步骤。具体实现过程中,还需要注意一些细节问题,如掩码操作(Masking)、残差连接(Residual Connection)和层归一化(Layer Normalization)等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Discoverhub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值