基于Skip-Thought的Sentence2Vec神经网络实现

一、前言

1、Skip-Thought-Vector论文

2、本文假设读者已了解Skip-Gram-Vector和RNN相关基础,以下文章可做参考:

(1)RNN古诗词生成

(2)Skip-Gram-Vector

(3)LSTM/GRU门控机制

二、实战

1、数据处理

(1)网络小说《神墓》,基于版权原因,请自行寻找数据源

(2)先对特殊符号进行处理,将整本小说按行分割成一个列表

    def _process_words(file_list):
        words = ''.join(file_list)
        vocab = sorted(set(words))
        mask = vocab[:110]+vocab[-57:]
        mark = ['!', ',', ':', ';', '?', '~', '…', '、', '。', '.', '?', ';', ':', '.', ',', '!']
        for m in mask:
            words = words.replace(m, '\\') if m in mark else words.replace(m, '')
        return words
(3)分割后的句子可能出现较多重复且意义不大的句子(如,啊,哈哈,等),对模型产生噪音。这里把高频句子剔除,用以下公式计算删除该句子的概率:

其中f(w)代表该句子出现的概率,t为一个阈值。

    def _process_sentence_list(sentence_list, t=1e-5, threshold=0.5):
        sentence_count = Counter(sentence_list)
        total_count = len(sentence_list)
        # 计算句子频率
        sentence_freqs = {w: c / total_cou
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值