实现Word2Vec模型(Skip-Gram):TensorFlow版本

本文介绍了如何使用TensorFlow实现Word2Vec的Skip-Gram模型,包括数据预处理、训练样本构建、模型构建、模型验证以及提升模型效果的技巧。通过设置窗口大小、嵌入层和负采样,以及利用TSNE进行词向量可视化,来理解和优化Word2Vec模型。
摘要由CSDN通过智能技术生成

1. 数据预处理

文本分词、替换文本中特殊符号、去除低频词(Counter 计数器,统计字符出现的个数)、单词映射表

# 筛选低频词
words_count = Counter(words)
words = [w for w in words if words_count[w] > 50]
# 构建映射表
vocab = set(words)
vocab_to_int = {w: c for c, w in enumerate(vocab)}
int_to_vocab = {c: w for c, w in enumerate(vocab)}
print("total words: {}".format(len(words)))
print("unique words: {}".format(len(set(words))))
# 对原文本进行vocab到int的转换
int_words = [vocab_to_int[w] for w in words]

2. 训练样本构建

对停用词进行采样,计算每个单词被删除的概率大小如下:

一文详解 Word2vec 之 Skip-Gram 模型(实现篇)

其中,t是一个阈值参数,一般为1e-3至1e-5;f(wi)是单词 wi 在整个数据集中的出现频次;P(wi)是单词被删除的概率。

t = 1e-5 # t值
threshold = 0.9 # 剔除概率阈值

# 统计单词出现频次
int_word_counts = Counter(int_words)
total_count = len(int_words)
# 计算单词频率
word_freqs = {w: c/total_count for w, c in int_word_counts.items()}
# 计算被删除的概率
prob_drop = {w: 1 - np.sqrt(t / word_freqs[w]) for w in int_word_counts}
# 对单词进行采样
train_words = [w for w in int_words if prob_drop[w] < threshold]
print(len(train_words))

构造batch:基于每个input word的上下文构建batch

设置窗口大小为m,在[1,m]之间生成随机数,作为最终的窗口大小。随机数的窗口重新选择步骤,能够让模型更聚焦于当前input word的邻近词。

# 获得input word的上下文单词列表
def get_targets(words, idx,
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值