![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pyspark
文章平均质量分 82
Echosand
这个作者很懒,什么都没留下…
展开
-
Learning Pyspark 笔记小结(一)
环境配置 https://blog.csdn.net/u011513853/article/details/52865076 RDD 弹性分布式数据集 Create RDD 从文件读取Lines=sc.textFile(‘path/filename’) ,每行默认为一个元素。 ...原创 2018-12-02 21:40:44 · 733 阅读 · 0 评论 -
Learning Pyspark 笔记小结(二)
MLlib Learning module 包括三个部分: Data preparation:特征抽取,转换,选中,hash,nlp方法 Machine learning algorithms:流行的回归,分类聚类算法 Utilities:统计方法:描述性统计,卡方检验,线性代数(稀疏和密集矩阵和向量),以及模型评估,方法 ...原创 2018-12-03 17:12:42 · 868 阅读 · 0 评论 -
pyspark ALS 简单总结
Pyspark 常见数据清洗和补全指令: Dataframe Df.select() 选取某列 Df.fillna(0) 用0补全所有na位 Df.filter(cond.)=Df.where(cond.) 按照cond.过滤df,相当于...原创 2018-12-28 19:40:11 · 2671 阅读 · 0 评论