2016年09月_风雪夜归子

12月 11月 10月 09月 08月 07月 06月

原创 spark Tokenization的用法

Tokenization是将文本(例如句子)分割成单词，RegexTokenizer是基于正则表达式进行单词分割，默认打分割方式是'\s+'，具体应用如下：from pyspark.ml.feature import Tokenizer, RegexTokenizersentenceDataFrame = sqlContext

2016-09-10 12:43:44 8061

原创 Spark CountVectorizer处理文本特征

CountVectorizer算法是将文本向量转换成稀疏表示打数值向量（字符频率向量）。该数值向量可以传递给其他算法，譬如LDA 。在fitting过程中，CountVectorizer将会把频率高的单词排在前面。可选参数minDF表示文本中必须出现的次数。下面看一个具体的例子。from pyspark.ml.feature import CountVectorizer

2016-09-10 11:41:52 12556

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人