参考网站:
https://github.com/RaRe-Technologies/gensim/wiki/Recipes-&-FAQ
https://www.ibm.com/developerworks/cn/opensource/os-cn-python-yield/
该问题是解决当数据量过大时数据集占用内存过多导致的崩溃问题,利用生成器训练word2vec模型以减少内存使用。使用以下定义的生成器,逐个读取dirname路径下的所有pkl文件,其中每个文件含有若干样本:
Class DirofCorpus(object):
def __init__(self, dirname):
self,dirname = dirname
def _