spark 使用lda算法提取中文文档文本主题

本篇文章的呢主要写的使用spark ml 中的lda算法提取文档的主题的方法思路,不牵扯到lda的 算法原理。至于算法请参照http://www.aboutyun.com/thread-20130-1-1.html 这篇文章

使用lda算法对中文文本聚类并提取主题,大体上需要这么几个过程:

1.首先采用中文分词工具对中文分词,这里采用开源的IK分词。

2.从分词之后的词表中去掉停用词,生成新的词表。

3.利用文档转向量的工具将文档转换为向量。

4.对向量使用lda算法运算,运算完成之后取出主题的详情,以及主题在文档中的分布详情。

具体代码如下:

public class IkAnalyzerTool{


	public String call(String line) throws Exception {
		  StringReader sr=new StringReader(line);  
	        IKSegmenter ik=new IKSegmenter(sr, true);  
	        Lexeme lex=null;  
	        StringBuffer sb = new StringBuffer();
	        while((lex=ik.next())!=null){  
	        	sb.append(lex.getLexemeText());
	        	sb.append(" ");
	        }  
	        return sb.toString();
	}
	public static void main(String[] args) throws Exception {
		IkAnalyzerTool a = new 
  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值