spark 使用lda算法提取中文文档文本主题

最新推荐文章于 2021-03-01 21:22:41 发布

qqLK123

最新推荐文章于 2021-03-01 21:22:41 发布

阅读量5.4k

点赞数 2

分类专栏： spark

本文链接：https://blog.csdn.net/qqLK123/article/details/75676365

版权

本篇文章的呢主要写的使用spark ml 中的lda算法提取文档的主题的方法思路，不牵扯到lda的算法原理。至于算法请参照http://www.aboutyun.com/thread-20130-1-1.html 这篇文章

使用lda算法对中文文本聚类并提取主题，大体上需要这么几个过程：

1.首先采用中文分词工具对中文分词，这里采用开源的IK分词。

2.从分词之后的词表中去掉停用词，生成新的词表。

3.利用文档转向量的工具将文档转换为向量。

4.对向量使用lda算法运算，运算完成之后取出主题的详情，以及主题在文档中的分布详情。

具体代码如下：

public class IkAnalyzerTool{


	public String call(String line) throws Exception {
		  StringReader sr=new StringReader(line);  
	        IKSegmenter ik=new IKSegmenter(sr, true);  
	        Lexeme lex=null;  
	        StringBuffer sb = new StringBuffer();
	        while((lex=ik.next())!=null){  
	        	sb.append(lex.getLexemeText());
	        	sb.append(" ");
	        }  
	        return sb.toString();
	}
	public static void main(String[] args) throws Exception {
		IkAnalyzerTool a = new

最低0.47元/天解锁文章

qqLK123

关注

2
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
spark 使用lda算法提取中文文档文本主题

本篇文章的呢主要写的使用spark ml 中的lda算法提取文档的主题的方法思路，不牵扯到lda的算法原理。至于算法请参照http://www.aboutyun.com/thread-20130-1-1.html 这篇文章使用lda算法对中文文本聚类并提取主题，大体上需要这么几个过程：1.首先采用中文分词工具对中文分词，这里采用开源的IK分词。2.从分词之后的词表中去掉停用词，生成新
复制链接

扫一扫

专栏目录