Tensorflow 预处理模块之skipgrams

tf.keras.preprocessing.sequence.skipgrams()是Tensorflow预处理模块的一个函数,其功能是根据输入条件生成词汇对。因为可能是跳n个词生成的词汇对,所以也叫跳字模型。其定义如下:tf.keras.preprocessing.sequence.skipgrams(sequence, vocabulary_size, window_size=4, negative_samples=1., shuffle=True, categorical=Fals
摘要由CSDN通过智能技术生成

tf.keras.preprocessing.sequence.skipgrams()是Tensorflow预处理模块的一个函数,其功能是根据输入条件生成词汇对。因为可能是跳n个词生成的词汇对,所以也叫跳字模型。其定义如下:

tf.keras.preprocessing.sequence.skipgrams(sequence, vocabulary_size,
    window_size=4, negative_samples=1., shuffle=True,
    categorical=False, sampling_table=None)

主要参数说明如下:

  • sequence:词汇索引数组,整数
  • vocabulary_size:词汇表大小
  • window_size:正样本对之间的距离
  • negative_samples:大于0的浮点数,等于0代表没有负样本,等于1代表负样本与正样本数目相同,以此类推(即负样本的数目是正样本的negative_samples倍)
  • shuffle:布尔值,是否随机打乱样本
  • categorical:布尔值,确定是否要使得返回的标签具有确定类别
  • sampling_table:形如vocabulary_size的数组,此数组保存的是单词出现的概率。如果单词出现的概率小于随机数(系统程序中调用),则跳过产生单词对。也就是说,单词出现的概率会与一个随机数比较,以决定是否生成单词对。

简单的例子如下:
假设一个英文句子为“The quick brown fox jumps over lazy dog”,一共有8个单词,由于index=0是特殊的,所以输入的下标数组从1开始。代码如下:

s=np.arange(1,9)
couples, labels = tf.keras.preprocessing.sequence.skipgrams(s,
            vocabulary_size=8,window_size=1,shuffle=False,negative_samples=0)

输出的couples为:

[[1, 2],
 [2, 1],
 [2
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值