lo_single-CSDN博客

原创 Spark入门

Spark入门前言本人并未从事Spark相关的工作，但由于项目需要使用了Spark将算法实现并行化，所以本篇博客更多的是一些简单、直白的Spark用法与优化。适合看本篇博客的人应该是与我一样由于课题需要临时使用Spark或者说出于兴趣探索Spark，这篇博客可以给予一个基础的介绍。如果你从事使用Spark编程的工作，那么我更建议你简单看一看本篇博客后前往官网或者找基本认可度较高的书籍去系统的学习.

2017-10-25 10:39:40 412

原创 Scala函数进阶

Scala函数进阶，包括指定参数、缺省、匿名函数、by-Name、Currying、Partial Applied等用法说明。

2017-09-04 14:43:32 284

原创在pyspark中调用scala代码

在pyspark中调用scala代码情境说明问题我们这边是要使用Spark去并行一个自然语言处理的算法，其中使用到了LDA主题模型。由于使用的是天河二号，Spark版本是1.5.1，pyspark同样，所以获取主题时还不能使用describeTopics(在spark1.6中才开放对python的接口)，只能使用topicsMatrix的方法。本来凑合用topicsMatrix也行，但我们发现，

2017-09-04 00:08:41 2786 1

原创 pyspark底层浅析

pyspark简介 & pyspark中对JVM调用浅析

2017-09-03 17:31:03 2489

原创 LDA主题模型

LDA模型简介LDA指两者算法，一种叫线性判别分析，一种叫文档主题生成模型，在NLP中我们当然指的是后者。LDA是一种基于统计的生成模型，它可以根据语料库生成主题模型，并根据这个模型来预测一篇文章属于哪些主题。算法理论前提假设不同于传统的词袋模型，LDA模型认为，一篇文章的生成，是首先随机地决定一些主题，再从每个主题中随机地选择一些词语，这些词语构成了一篇文章。LDA并

2017-08-07 21:23:25 1983

原创 tf-idf关键词提取算法

tf-idf讲解以及python代码实现

2017-07-25 00:22:01 9748 1

原创 NLP简介 & 文本预处理

自然语言处理简介，以及文本预处理的文本提取、分词以及去停用词

2017-07-24 10:09:41 10697

loser的笔记