java实现lda模型_lda模型 java

最新推荐文章于 2023-08-06 20:07:08 发布

商业纪事

最新推荐文章于 2023-08-06 20:07:08 发布

阅读量254

点赞数

文章标签： java实现lda模型

本文链接：https://blog.csdn.net/weixin_42504619/article/details/114357943

版权

利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下 mahout算法分析输入数据格式为的matrix矩阵,key为待聚类文本的数字编号，value为待聚类文本的单词向量Vector, Vector的index为单词在字典中的编号, value为TFIDF值。算法相关参数详解(不包含hadoop运行参数) 项目中所有参数设置均与mahout-0.9目录下的examples/bin/cluster-reuters.sh的147-172行设置一样，即 $SCOUT cvb -i ${WORK_DIR}/${ROWID_MATRIX_DIR}/matrix -o ${WORK_DIR}/${LDA_DIR} -k 20 -ow -x 20 -dict ${WORK_DIR}/${DICTIONARY_FILES} -dt ${WORK_DIR}/${LDA_TOPICS_DIR} -mt ${WORK_DIR}/${LDA_MODEL_DIR} input -- 输入数据的hdfs路径,这里是/home/hadoop-user/scout_workspace/scout/dataset/reuters-out-matrix-debug/matrix dt -- 文档主题输出路径,保存了每个文档的相应topic的概率,这里是/home/hadoop-user/scout_workspace/scout/dataset/reuters-lda-topics mt -- model的路径,这里是/home/hadoop-user/scout_workspace/scout/dataset/reuters-lda-debug k -- number of topics to learn,这里设置成20 x -- 模型迭代次数,也就是需要多少次迭代来生成最后的Model,默认值20 seed -- Random seed,生成初始readModel时的种子,默认值System.nanoTime() % 10000 dict -- 字典路径,这里是/home/hadoop-user/scou

最低0.47元/天解锁文章

商业纪事

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java实现lda模型_lda模型 java

利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下 mahout算法分析输入数据格式为的matrix矩阵,key为待聚类文本的数字编号，value为待聚类文本的单词向量Vector, Vector的index为单词在字典中的编号, value为TFIDF值。算法相关参数详解(不包含hadoop...
复制链接

扫一扫