- 博客(3)
- 资源 (6)
- 收藏
- 关注
原创 NLP分词
NLP分词jar包很大,不建议使用maven下载,几百M,直接官网下载 package test import edu.stanford.nlp.ling.{CoreAnnotations, CoreLabel} import edu.stanford.nlp.pipeline.{Annotation, StanfordCoreNLP} import org.apache.commons.la
2017-09-28 12:11:27 483
原创 Ansj分词
/** * Created by liuwei on 2017/8/24. */ object AnsjTest { def main(args: Array[String]): Unit = { val string = "test环境服务器启动方式更新为supervisor启动" val t = tfidfAnsj(string, List.empty[S
2017-09-25 11:10:11 296
原创 聚类LDA
1. 聚类LDA 1.1 概念 LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。所谓生成模型,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布。[1] LDA是一种非监督
2017-09-12 16:08:41 1346
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人