一个上课的课程项目,我们完成了通过RNN机器学习网络的抑郁倾向预测,通过用户输入文本后对其进行预测,并且完成可视化的前端界面,并且包含了用户登录、注册等内容。
总览
先来展示一下界面:
接下来是预测界面
项目用到的库有flask框架,pymysql,tensorflow,sklearn,其中有些库需要进行版本与Python版本的对应,在下载时可以参考其他博客,在这不多做介绍。
flask框架的使用比较简单,想系统学习一下可以参考b站教程00 课程介绍_哔哩哔哩_bilibili,我跟着一步一步学下来感觉效果挺好的,该课程后续还涉及到Django的内容,等我把st的作业写出来后可能会上传部分有关Django的源代码。
以下是我的代码部分,在这里只选择部分粘贴,如果需要源代码可以联系我。
这是这个项目的所有代码内容
机器学习部分内容
#!/usr/bin/python
# -*- coding: utf-8 -*-
import tensorflow as tf
class TRNNConfig(object):
"""RNN配置参数"""
# 模型参数
embedding_dim = 64 # 词向量维度
seq_length = 600 # 序列长度
num_classes = 5 # 类别数
vocab_size = 5000 # 词汇表大小
num_layers= 2 # 隐藏层层数
hidden_dim = 128 # 隐藏层神经元
rnn = 'lstm' # lstm 或 gru
dropout_keep_prob = 0.8 # dropout保留比例
learning_rate = 1e-3 # 学习率
batch_size = 128 # 每批训练大小
num_epochs = 25 # 总迭代轮次
print_per_batch = 40 # 每多少轮输出一次结果
save_per_batch = 10 # 每多少轮存入tensorboard
class TextRNN(object):
"""文本分类,RNN模型"""
def __init__(self, config):
self.config = config
# 三个待输入的数据
self.input_x = tf.placeholder(tf.int32, [None, self.config.seq_length], name='input_x')
self.input_y = tf.placeholder(tf.float32, [None, self.config.num_classes], name='input_y')
self.keep_prob = tf.placeholder(tf.float32, name='keep_prob')
self.rnn()
def rnn(self):
"""rnn模型"""
def lstm_cell(): # lstm核
return tf.contrib.rnn.BasicLSTMCell(self.config.hidden_dim, state_is_tuple=True)
def gru_cell(): # gru核
return tf.contrib.rnn.GRUCell(self.config.hidden_dim)
def dropout(): # 为每一个rnn核后面加一个dropout层
if (self.config.rnn == 'lstm'):
cell = lstm_cell()
else:
cell = gru_cell()
return tf.contrib.rnn.DropoutWrapper(cell, output_keep_prob=self.keep_prob)
# 词向量映射
with tf.device('/cpu:0'):
embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])
embedding_inputs = tf.nn.embedding_lookup(embedding, self.input_x)
with tf.name_scope("rnn"):
# 多层rnn网络
cells = [dropout() for _ in range(self.config.num_layers)]
rnn_cell = tf.contrib.rnn.MultiRNNCell(cells, state_is_tuple=True)
_outputs, _ = tf.nn.dynamic_rnn(cell=rnn_cell, inputs=embedding_inputs, dtype=tf.float32)
last = _outputs[:, -1, :] # 取最后一个时序输出作为结果
with tf.name_scope("score"):
# 全连接层,后面接dropout以及relu激活
fc = tf.layers.dense(last, self.config.hidden_dim, name='fc1')
fc = tf.contrib.layers.dropout(fc, self.keep_prob)
fc = tf.nn.relu(fc)
# 分类器
self.logits = tf.layers.dense(fc, self.config.num_classes, name='fc2')
self.y_pred_cls = tf.argmax(tf.nn.softmax(self.logits), 1) # 预测类别
with tf.name_scope("optimize"):
# 损失函数,交叉熵
cross_entropy = tf.nn.softmax_cross_entropy_with_logits(logits=self.logits, labels=self.input_y)
self.loss = tf.reduce_mean(cross_entropy)
# 优化器
self.optim = tf.train.AdamOptimizer(learning_rate=self.config.learning_rate).minimize(self.loss)
with tf.name_scope("accuracy"):
# 准确率
correct_pred = tf.equal(tf.argmax(self.input_y, 1), self.y_pred_cls)
self.acc = tf.reduce_mean(tf.cast(correct_pred, tf.float32))
这是RNN模型中的核心部分,包含参数的设置,可以自行进行修改等。
至于我的数据来源一部分是来自于微博中文语料,原数据分为了0/1两部分,而后由于只是上课项目的需要,没有太大的科学严谨性,项目组内两名同学手动进行了分类,分为了0-4五类,其中0是没有抑郁倾向,1-4分别为轻微、中度、较重、重度抑郁倾向。还有一部分数据为通过问卷形式收集的。
训练的结果如图所示
分别为准确率与损失值函数。
有关模型的运用与训练部分在这里就不再展示。有需要私聊。
前端
接下来是前端部分,包含了login、register、system三个具体部分,登录注册以及系统预测,此为main中的部分代码。
@app.route("/show/info")
def index():
return render_template("index.html")
@app.route("/system", methods=["GET", "POST"])
def system():
if 'username' not in session:
return redirect(url_for('login'))
prediction = None
if request.method == "POST":
user_input = request.form.get("user_input")
if user_input:
category, prob = rnn_model.predict(user_input)
prediction = "Category: {}, Probability: {:.2f}".format(category, prob)
return render_template("system.html", prediction=prediction)
@app.route("/register", methods=["GET", "POST"])
def register():
if request.method == "GET":
return render_template("register.html")
username = request.form.get("username")
password = request.form.get("password1")
prof = request.form.get("profession")
sql = "INSERT INTO admin(password, username, prof) VALUES(%s, %s, %s)"
cursor.execute(sql, [password, username, prof])
conn.commit()
return redirect(url_for('index'))
@app.route("/login", methods=["GET", "POST"])
def login():
if request.method == "POST":
username = request.form.get("username")
password = request.form.get("password")
sql = "SELECT * FROM admin WHERE username=%s AND password=%s"
cursor.execute(sql, [username, password])
user = cursor.fetchone()
if user:
session['username'] = username
return redirect(url_for('system'))
else:
flash("Invalid username or password")
return render_template("login.html")
这是部分system的网页内容
<body>
<div class="container">
<h2>Text Prediction System</h2>
<form method="post" action="/system">
<div class="input-group">
<textarea name="user_input" placeholder="输入文本进行预测..."></textarea>
</div>
<button type="submit" class="btn">Predict</button>
</form>
{% if prediction %}
<div class="prediction">
<strong>预测结果:</strong> {{ prediction }}
</div>
{% endif %}
</div>
</body>
至此我们已经完成这个项目的大部分工作了。
至于数据库的连接以及配置都可以自行运行,我这里的数据表只设置了ID,username,password,prof(学生/教师)几个内容。