- 博客(2)
- 收藏
- 关注
原创 spark Tokenization的用法
Tokenization是将文本(例如句子)分割成单词,RegexTokenizer是基于正则表达式进行单词分割,默认打分割方式是'\s+',具体应用如下:from pyspark.ml.feature import Tokenizer, RegexTokenizersentenceDataFrame = sqlContext
2016-09-10 12:43:44 8061
原创 Spark CountVectorizer处理文本特征
CountVectorizer算法是将文本向量转换成稀疏表示打数值向量(字符频率向量)。该数值向量可以传递给其他算法,譬如LDA 。在fitting过程中,CountVectorizer将会把频率高的单词排在前面。可选参数minDF表示文本中必须出现的次数。下面看一个具体的例子。from pyspark.ml.feature import CountVectorizer
2016-09-10 11:41:52 12556
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人