WORD2VEC总结

word2vec
学习word2vec后的一个总结。
word2vec是训练词向量的一种方式,出自论文《Efficient Estimation of Word Representations in Vector Space》中,是谷歌Tomas Mikolov提出的一种开源的训练词向量的工具包。在word2vec中可以通过两种模型:CBOW模型和SKip-gram模型,来训练词向量。CBOW模型是通过上下文预测中心词的方式,而SKip-gram模型是通过中心词预测上下文的方式。
1. 预处理
由于word2vec模型的输入层(即input层)为one-hot独立编码,所以需要对文本进行预处理。预处理的最终目的是形成字典,让每一个单词对应一个ID(即一个编码)。由于英文本身就带有天生的断隔(空格),中文的预处理相比较于英文的预处理来说有些不同且更加困难。
#1.1.中文预处理
中文预处理的过程大概分为以下几步:1.读取文件。2.分词并去停用词。3.统计词频。4.根据词频,按单词出现频繁程度形成字典(一般,单词词频越大,在字典中越靠前)。
#1.2.英文预处理
英文预处理的过程大概分为以下几步:1.读取文件。2.统一单词形式(一般将大写变为小写)并去停用词。3.统计词频。4.根据词频形成字典。
停用词一般是标点符号或者其他一些常用词、数字等。预处理的资料与代码示例在博客上有许多。比如中文语料预处理手记
2.word2vec模型</

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值