spark(pyspark)
ant_yi
这个作者很懒,什么都没留下…
展开
-
1. 运行pyspark
spark有三种运行方式:1. 本地运行spark (单机,学习、测试用)2. yarn运行spark (集群,主要使用)3. spark standalone运行spark (集群不常用)在没有hadoop的情况下实现多台计算机并行计算,需要配置,不介绍 安装好spark后在终端输入pyspark可以进入shell命令行,(此时就是本地模式)就可以输入python...原创 2019-01-07 22:22:55 · 7879 阅读 · 0 评论 -
实例:2. ALS算法(pycharm)
分为两个部分:1. 训练模型 RecommendTrain.py2. 推荐 Recommend.py 将模型保存起来,可以更方便的调用模型的保存和加载:model.save(sc, Path + "ALSmodel")model = MatrixFactorizationModel.load(sc, Path+"ALSmodel") RecommendTr...原创 2019-01-08 03:18:55 · 2842 阅读 · 0 评论 -
实例:1. ALS算法(jupyter)
ALS 是 spark 的协同过滤算法,已集成到 Spark 的 mllib 库中使用anaconda的jupyter开发,交互性好 数据集:电影数据集 ml-100k.zip,下载地址:https://grouplens.org/datasets/movielens/其中,u.dat是用户评分数据(包括用户id、电影id、评分、日期)u.item是电影数据(包括电影id、...原创 2019-01-07 23:16:59 · 1912 阅读 · 0 评论 -
7. wordcount(pycharm)
jupyter notebook的优点是交互性,但因为是.ipynb文件,不能重复使用可以使用集成开发工具(如pycharm、eclipse)来创建项目,以便重复使用 hdfs命令:开启hadoop集群:start-all.shhdfs创建test目录:hadoop fs -mkdir -p /test测试文件上传到hdfs的test目录:hadoop fs -copy...原创 2019-01-07 23:14:02 · 1646 阅读 · 0 评论 -
6. spark-submit
将 wordcount.py 文件使用 spark-submit 来执行1. 本地执行2. yarn执行wordcount.py 文件见下一节【 wordcount(pycharm)】 spark-submit 常用参数:--master yarn-client spark运行环境--driver-memory 1G driver程序使用的内存--executor-...原创 2019-01-07 23:08:27 · 1479 阅读 · 0 评论 -
5. wordcount(jupyter)
本地运行代码:PYSPARK_DRIVER_PYTHON="jupyter" PYSPARK_DRIVER_PYTHON_OPTS="notebook" pyspark# 读取文本数据textFile = sc.textFile("file:/ipynotebook/test.txt")# 使用flatMap空格符分割单词,读取每个单词stringRDD = textFile....原创 2019-01-07 23:03:23 · 1946 阅读 · 0 评论 -
4. RDD
RDD:弹性分布式数据集 五大特性:1.A list of partitions (分区)RDD是一个由多个partition(分区)组成的的list;将数据加载为RDD时,一般会遵循数据的本地性(一般一个hdfs里的block会加载为一个partition)。2.A function for computing each split (函数作用于每个分区)RDD的每个pa...原创 2019-01-07 22:39:57 · 1402 阅读 · 0 评论 -
3. pycharm配置pyspark
pycharm配置运行pyspark1. 安装pycharm2. 配置3. 测试 1. 安装pycharm官网下载pycharm:https://www.jetbrains.com/pycharm/下载 pycharm-community-2018.3.2.tar.gz解压:可以bash,也可以右键归档管理器提取此时进入bin目录 ./pycharm.sh...原创 2019-01-07 22:32:38 · 3743 阅读 · 0 评论 -
2. jupyter运行pyspark
使用anaconda的jupyter notebook来运行pyspark1. 安装anaconda(linux)2. 配置3. 本地模式运行pyspark4. yarn运行pyspark5. 遇到的问题 centos7默认python环境是2.7,我想要3.5的,使用anaconda配置python环境,anaconda还自带很多科学计算包,方便 1. 安...原创 2019-01-07 22:26:56 · 5547 阅读 · 0 评论 -
stackoverflow错误
ALS算法迭代20次,爆栈错误:spark在迭代计算的过程中(迭代次数太多),也就是函数调用层级过多导致,所需的栈空间也急剧上升,线程的栈满了,最终爆栈了。。解决方法:1. 减少迭代次数ALS收敛很快(15次以内),实测把20次改为10次程序可以正常运行2. checkpoint()sc.setCheckpointDir("hdfs://hadoop01:9000/chec...原创 2019-01-08 03:20:33 · 4840 阅读 · 0 评论