spark集群运行大数据集的word2vec问题汇总

最新推荐文章于 2023-09-01 11:26:43 发布

STHSF

最新推荐文章于 2023-09-01 11:26:43 发布

阅读量4.6k

点赞数

分类专栏：编程技巧自然语言处理文章标签： spark word2vec

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013041398/article/details/54924187

版权

编程技巧同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

自然语言处理

3 篇文章 0 订阅

订阅专栏

对于大数据集的文本数据，使用spark运行word2vec时对spark的设置：

首先word2vec暂时就不介绍了，在上代码之前我先简要介绍下我的数据，我使用的是新闻文本数据，分词之后初步统计大概有674608个词。（ps 我也不知道这数据量能不能算得上大数据)，然后简单的调用spark中的word2vec程序，并且将运行的模型保存下来。

我的spark设置大致如下

上面是最基本的配置，在这个配置下，我的数据大概会运行2.5h左右。其中word2vec部分参数为verctorsize = 100, mincount = 2.

运行过程中出现的第一个问题：

查看spark的帮助文档发现，spark默认的framesize仅为10M，而我的程序中的某个task需要接近250M容量，因此在shell加了一行设置framesize的大小：

重新运行之后问题解决并且能够训练出模型。

下面一步是准备将mincount调整为更大的数，估计还会出现一些问题，等程序运行完了在总结吧。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
spark集群运行大数据集的word2vec问题汇总

对于大数据集的文本数据，使用spark运行word2vec时对spark的设置：首先word2vec暂时就不介绍了，在上代码之前我先简要介绍下我的数据，我使用的是新闻文本数据，分词之后初步统计大概有674608个词。（ps 我也不知道这数据量能不能算得上大数据)，然后简单的调用spark中的word2vec程序，并且将运行的模型保存下来。我的spark设置大致如下上面是最基本的
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。