![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
shursulei
个人github:https://github.com/shursulei/
展开
-
Spark-电影推荐系统
一.环境的准备 1.MovieLens 100K数据集 数据链接的地址 2.查看对应的数据 u.user数据类型#对应的数据分别为 user_id,age,gender,occupation,ZIP code(邮编) sulei@sulei:~/下载/ml-100k$ head -5 u.user 1|24|M|technician|85711 2|53|F|other|94043 3|2原创 2017-07-12 11:23:02 · 1274 阅读 · 0 评论 -
Spark-基本概念和简介
1.spark是什么 Apache Spark is a fast and general engine for large-scale data processing 官网的地址:Databricks/Spark.apache.org 基于内存的运算/ 特点:速度快, 使用简单,通用性 RDD弹性分布数据集 Spark=SDK开发库原创 2017-07-04 16:06:17 · 408 阅读 · 0 评论 -
Spark-编程模型
一. Spark 编程模型 1.Spark 应用程序有两部分组成:Driver/Executor 2.Spark 应用程序基本概念 3.Spark 应用程序编程模型 – Driver Program ( SparkContext ) – Executor ( RDD 操作) 输入 Base-> RDD Transfor原创 2017-07-05 09:24:45 · 399 阅读 · 0 评论 -
spark-伪分布式搭建
一.环境的准备(hadoop-2.8.0/spark-2.1.0/scala-2.12.) hadoop的安装/scala的安装 二.安装配置 1.查看/etc/profile的配置export JAVA_HOME=/opt/jdk export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/原创 2017-07-04 20:17:00 · 496 阅读 · 0 评论