tf 如何进行svd_如何在pysp的TFIDF数据帧上应用SVD

最新推荐文章于 2022-07-17 20:51:11 发布

guilherme_rodz

最新推荐文章于 2022-07-17 20:51:11 发布

阅读量190

点赞数

文章标签： tf 如何进行svd

本文链接：https://blog.csdn.net/weixin_42236063/article/details/113006492

版权

我已经应用了pyspark tf idf函数并得到了以下结果。在| features |

|----------|

| (35,[7,9,11,12,19,26,33],[1.2039728043259361,1.2039728043259361,1.2039728043259361,1.6094379124341003,1.6094379124341003,1.6094379124341003,1.6094379124341003]) |

| (35,[0,2,4,5,6,11,22],[0.9162907318741551,0.9162907318741551,1.2039728043259361,1.2039728043259361,1.2039728043259361,1.2039728043259361,1.6094379124341003]) |

因此，一个数据帧有1列(features)，其中包含sparsevector作为行。在

我尝试过以下方法，但没有成功：

^{pr2}$

我使用RowMatrix是因为要构建它，我不需要提供元组，但我甚至不能构建RowMatrix。IndexedRowMatrix对我来说会更困难。在

那么如何在pyspark中tf-idf数据帧的输出上运行indexedrowmmatrix？在