spark
文章平均质量分 74
qqLK123
这个作者很懒,什么都没留下…
展开
-
spark 使用lda算法提取中文文档文本主题
本篇文章的呢主要写的使用spark ml 中的lda算法提取文档的主题的方法思路,不牵扯到lda的 算法原理。至于算法请参照http://www.aboutyun.com/thread-20130-1-1.html 这篇文章使用lda算法对中文文本聚类并提取主题,大体上需要这么几个过程:1.首先采用中文分词工具对中文分词,这里采用开源的IK分词。2.从分词之后的词表中去掉停用词,生成新原创 2017-07-22 08:46:30 · 5420 阅读 · 1 评论 -
spark sql 处理mongodb 数据库中的数据
spark 关于处理mongodb、json数据的技术。原创 2017-07-22 14:58:59 · 3898 阅读 · 0 评论