spark集群运行大数据集的word2vec问题汇总

对于大数据集的文本数据,使用spark运行word2vec时对spark的设置:

首先word2vec暂时就不介绍了,在上代码之前我先简要介绍下我的数据,我使用的是新闻文本数据,分词之后初步统计大概有674608个词。(ps 我也不知道这数据量能不能算得上大数据),然后简单的调用spark中的word2vec程序,并且将运行的模型保存下来。

我的spark设置大致如下


上面是最基本的配置,在这个配置下,我的数据大概会运行2.5h左右。其中word2vec部分参数为verctorsize = 100, mincount = 2.

运行过程中出现的第一个问题:

查看spark的帮助文档发现,spark默认的framesize仅为10M,而我的程序中的某个task需要接近250M容量,因此在shell加了一行设置framesize的大小:

重新运行之后问题解决并且能够训练出模型。

下面一步是准备将mincount调整为更大的数,估计还会出现一些问题,等程序运行完了在总结吧。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Word2Vec 模型通常需要大规模的文本数据集进行训练,以便获得更好的词向量表示。以下是一些常用的数据集,供你用来训练 Word2Vec 模型: 1. 维基百科语料库(Wikipedia Corpus):维基百科是一个免费且内容丰富的多语种文本资源。你可以下载维基百科的语料库并使用其中的文本数据来训练 Word2Vec 模型。 2. Google 新闻语料库(Google News Corpus):这是一个包含数百万个新闻文章的大型数据集。Google 已经在其官方博客上发布了这个数据集的下载链接,你可以使用它来训练 Word2Vec 模型。 3. 预训练的 Word2Vec 模型:有一些已经训练好的 Word2Vec 模型可以直接使用,这些模型通常是在大规模文本数据集上进行训练得到的。例如,Google 提供了一些预训练好的 Word2Vec 模型,你可以从他们的网站上下载使用。 4. 自定义数据集:如果你有自己的文本数据集,你可以使用它来训练 Word2Vec 模型。确保你的数据集足够大,并且包含多样化的文本内容,以获得更好的词向量表示。 在开始训练之前,记得先对数据进行预处理,如分词、去除停用词、标点符号等。这样可以减少噪音,提高词向量的质量。 需要注意的是,Word2Vec 模型的训练可能需要较长的时间和大量的计算资源,特别是在大型数据集上进行训练。因此,在选择数据集时要根据自己的计算资源和时间限制进行权衡。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值