DSSM 代码解析

最新推荐文章于 2024-07-15 21:12:35 发布

一条水里的鱼

最新推荐文章于 2024-07-15 21:12:35 发布

阅读量2.1k

点赞数 2

本文链接：https://blog.csdn.net/qq_40859560/article/details/106492926

版权

代码github地址：
数据输入：
with tf.name_scope('input'):
    # 预测时只用输入query即可，将其embedding为向量。
    query_batch = tf.placeholder(tf.int32, shape=[None, None], name='query_batch')
    doc_pos_batch = tf.placeholder(tf.int32, shape=[None, None], name='doc_positive_batch')
    doc_neg_batch = tf.placeholder(tf.int32, shape=[None, None], name='doc_negative_batch')
    query_seq_length = tf.placeholder(tf.int32, shape=[None], name='query_sequence_length')
    pos_seq_length = tf.placeholder(tf.int32, shape=[None], name='pos_seq_length')
    neg_seq_length = tf.placeholder(tf.int32, shape=[None], name='neg_sequence_length')
    on_train = tf.placeholder(tf.bool)
    drop_out_prob = tf.placeholder(tf.float32, name='drop_out_prob')

假设：batch_szie=10,一个正样本对应2条负样本

则query_batch的shape为（10，max_len）

doc_pos_batch的shape为（10，max_len）

doc_neg_batch 的shape为（20，max_len）

正负样本整合：

with tf.name_scope('Merge_Negative_Doc'):
    # 合并负样本，tile可选择是否扩展负样本。
    # doc_y = tf.tile(doc_positive_y, [1, 1])
    doc_y = tf.tile(doc_pos_rnn_output, [1, 1])

    for i in range(NEG):
        for j in range(query_BS):
            # slice(input_, begin, size)切片API
            # doc_y = tf.concat([doc_y, tf.slice(doc_negative_y, [j * NEG + i, 0], [1, -1])], 0)
            doc_y = tf.concat([doc_y, tf.slice(doc_neg_rnn_output, [j * NEG + i, 0], [1, -1])], 0)

原本正样本为[+1，+2，+3，+4，...+10]

原本负样本为[-1,-1,-2,-2,-3,-3，...-10,-10]

整合后变成[+1,+2,+3,...+10,-1,-2,-3,...-10,-1,-2,-3,...-10]

计算相似性：
with tf.name_scope('Cosine_Similarity'):
    # Cosine similarity
    # query_norm = sqrt(sum(each x^2))
    query_norm = tf.tile(tf.sqrt(tf.reduce_sum(tf.square(query_rnn_output), 1, True)), [NEG + 1, 1])
    # doc_norm = sqrt(sum(each x^2))
    doc_norm = tf.sqrt(tf.reduce_sum(tf.square(doc_y), 1, True))

    prod = tf.reduce_sum(tf.multiply(tf.tile(query_rnn_output, [NEG + 1, 1]), doc_y), 1, True)
    norm_prod = tf.multiply(query_norm, doc_norm)

    # cos_sim_raw = query * doc / (||query|| * ||doc||)
    cos_sim_raw = tf.truediv(prod, norm_prod)
    # gamma = 20
    cos_sim = tf.transpose(tf.reshape(tf.transpose(cos_sim_raw), [NEG + 1, query_BS])) * 20

原本query为[q1,q2,q3,...,q10]

tf.tile后query为[q1,q2,q3,...q10,q1,q2,q3...,q10,q1,q2,q3...q10]

把扩充后的query与整合后的正负样本进行multiply

即[q1,q2,q3,...q10,q1,q2,q3...,q10,q1,q2,q3...q10]*[+1,+2,+3,...+10,-1,-2,-3,...-10,-1,-2,-3,...-10]结果为

[p1,p2,p3,...p10,n1,n2,n3,...n10,n1',n2',n3'...n10']

经reshape和transpose后得到最后的cos_sim=[[p1,n1,n1'],[p2,n2,n2'],....[p10,n10,n10']]

计算loss:

with tf.name_scope('Loss'):
    # Train Loss
    # 转化为softmax概率矩阵。
    prob = tf.nn.softmax(cos_sim)
    # 只取第一列，即正样本列概率。
    hit_prob = tf.slice(prob, [0, 0], [-1, 1])
    loss = -tf.reduce_sum(tf.log(hit_prob))
    tf.summary.scalar('loss', loss)

prob=[[+l1,-l1,-l1'],

[+l2,-l2,-l2']

...

[+l10,-l10,-l10']

]

然后最大化第一列，即正样本的概率（因为每一对正负样本概率总和为1，最大化正样本的概率，即就是最小化负样本的概率，也就是query越与正样本相似）