- 博客(7)
- 收藏
- 关注
原创 Spark入门
Spark入门前言本人并未从事Spark相关的工作,但由于项目需要使用了Spark将算法实现并行化,所以本篇博客更多的是一些简单、直白的Spark用法与优化。适合看本篇博客的人应该是与我一样由于课题需要临时使用Spark或者说出于兴趣探索Spark,这篇博客可以给予一个基础的介绍。如果你从事使用Spark编程的工作,那么我更建议你简单看一看本篇博客后前往官网或者找基本认可度较高的书籍去系统的学习.
2017-10-25 10:39:40
412
原创 Scala函数进阶
Scala函数进阶,包括指定参数、缺省、匿名函数、by-Name、Currying、Partial Applied等用法说明。
2017-09-04 14:43:32
284
原创 在pyspark中调用scala代码
在pyspark中调用scala代码情境说明问题我们这边是要使用Spark去并行一个自然语言处理的算法,其中使用到了LDA主题模型。由于使用的是天河二号,Spark版本是1.5.1,pyspark同样,所以获取主题时还不能使用describeTopics(在spark1.6中才开放对python的接口),只能使用topicsMatrix的方法。 本来凑合用topicsMatrix也行,但我们发现,
2017-09-04 00:08:41
2786
1
原创 LDA主题模型
LDA模型简介LDA指两者算法,一种叫线性判别分析,一种叫文档主题生成模型,在NLP中我们当然指的是后者。LDA是一种基于统计的生成模型,它可以根据语料库生成主题模型,并根据这个模型来预测一篇文章属于哪些主题。算法理论前提假设不同于传统的词袋模型,LDA模型认为,一篇文章的生成,是首先随机地决定一些主题,再从每个主题中随机地选择一些词语,这些词语构成了一篇文章。LDA并
2017-08-07 21:23:25
1983
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人