skip-gram模型

将上下文的概率乘起来即可
在这里插入图片描述
CBOW的图,拿来看一下
在这里插入图片描述
结合上面的图,得到的公式
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
求得还是当前值的向量
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Skip-gram是一种用于自然语言处理的模型,它的目的是根据中心词来预测周围的上下文。数据预处理是Skip-gram模型的重要步骤之一,下面将介绍Skip-gram模型的数据预处理过程。 Skip-gram模型的数据预处理过程如下: 1. 首先,需要读取语料库中的所有文本,并将它们转换为小写形式。 2. 接着,需要分词,将每个句子切分成单词或标点符号。这里可以使用分词工具如jieba等。 3. 然后,需要建立词表,将所有不同的单词或标点符号映射到一个唯一的整数值,这个整数值称为词汇表中单词的索引。 4. 接下来,需要将每个句子中的单词转换为对应的索引,以便后续的训练过程中可以直接使用索引来访问每个单词的向量表示。 5. 最后,需要将数据转换成Skip-gram模型所需的输入和输出格式。具体来说,输入是中心单词的索引,输出是上下文单词的索引列表。Skip-gram模型的输入是一个中心词,它会根据窗口大小选择上下文单词。 下面是一个简单的Python代码示例,用于实现Skip-gram模型的数据预处理过程: ```python import jieba # 读取语料库中的文本 with open('corpus.txt', 'r', encoding='utf-8') as f: corpus = f.read().lower() # 分词 sentences = [list(jieba.cut(line.strip())) for line in corpus.split('\n')] # 建立词表 vocab = {} for sentence in sentences: for word in sentence: if word not in vocab: vocab[word] = len(vocab) # 将单词转换为索引 indexed_sentences = [[vocab[word] for word in sentence] for sentence in sentences] # 将数据转换成Skip-gram模型所需的输入和输出格式 window_size = 2 X, y = [], [] for sentence in indexed_sentences: for i, word in enumerate(sentence): for j in range(max(0, i - window_size), min(len(sentence), i + window_size + 1)): if j != i: X.append(word) y.append(sentence[j]) ``` 以上是一个简单的Skip-gram模型的数据预处理过程示例,实际应用中可能需要进行更复杂的处理,以适应不同的任务和数据集。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值