spark
GaluoYao
这个作者很懒,什么都没留下…
展开
-
从0开始学pyspark(九):使用pyspark.ml.regression模块
from https://blog.csdn.net/tonydz0523/article/details/83869447 版权声明:本文为博主原创文章,如若转载请注明出处 https://blog.csdn.net/tonydz0523/article/details/83869447 </div>...转载 2019-05-28 11:32:53 · 1694 阅读 · 0 评论 -
PySpark SQL常用语法
from https://www.jianshu.com/p/177cbcb1cb6f PySpark SQL常用语法 <!-- 作者区域 --> <div class="author"> <a class="avatar" href="/u/fc7499020f49"> <img s...转载 2019-05-28 11:41:32 · 7206 阅读 · 0 评论 -
SparkML机器学习之特征工程(二)特征转化(Binarizer、StandardScaler、MaxAbsScaler、Normalizer、N-gram、Tokenizer等)
from https://yq.aliyun.com/articles/577701特征转化为什么要转化数据呢,就是要让它成为有效的特征,因为原始数据是很多脏数据无用数据的。常用的方法是标准化,归一化,特征的离散化等等。比如我输入的数据是句子,我得把它切分为一个个单词进行分析,这就是一种转化。连续型数据处理之二值化:Binarizer假设淘宝现在有个需求,我得根据年龄来进行物品推荐,把5...转载 2019-05-28 14:32:14 · 554 阅读 · 0 评论