Spark
文章平均质量分 75
Azoobie
这个作者很懒,什么都没留下…
展开
-
Spark简介
Spark集群由一个驱动程序和多个执行程序构成。 任何spark程序的编写从SparkContext开始。SparkContext的初始化需要SparkConf对象,SparkConf包含spark集群配置的各种参数。初始化后可用SparkContext对象包含的方法创建操作分布式数据集和共享变量。Spark shell可自动完成上述初始化。 从./bin运行spark-shell或p原创 2016-06-25 22:27:29 · 347 阅读 · 0 评论 -
Spark机器学习笔记2--设计机器学习系统
为智能分布式机器学习系统设计高层架构,该系统以Spark作为其核心计算引擎。 现代的大数据场景包含如下需求: 1) 必须与系统的其他组件整合,尤其是数据的收集和存储系统、分析和报告以及前端应用。 2) 易于扩展且与其他组件相对独立。同时具备良好的水平和垂直可扩展性。 3) 高效计算,支持机器学习和迭代式分析应用。 4) 同时支持批处原创 2016-06-26 17:57:59 · 787 阅读 · 0 评论 -
Spark机器学习笔记1--Spark Python编程入门
1. 处理如下数据 2. Python代码 #创建两个线程的SparkContext对象,名为 First Spark App sc = SparkContext("local[2]", "First Spark App") #读取原始数据并将CSV格式装换为(user, product, price)形式 data = sc.textFile("data/Us原创 2016-06-25 22:31:08 · 700 阅读 · 0 评论 -
在linux环境下安装和配置Spark
1. 搭建java开发环境 (1) 安装JDK(下载,解压,配置环境变量) 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 解压 >tar xfzvjdk-8u91-linux-i586.tar.gz 设置路径和环境变量 将解压后原创 2016-06-15 22:51:21 · 4017 阅读 · 0 评论 -
Spark机器学习笔记3--探索和可视化数据
常用机器学习数据库 UCL机器学习知识库 Amazon AWS公开数据集 Kaggle KDnuggets 【数据准备】 在http://files.grouplens.org/datasets/movielens/下载用户电影评级数据,用户信息和属性信息。 unzip命令解压文件 1) 安装IPython和matplotlib模块 IPython是针对Python的高级交原创 2016-06-30 22:51:10 · 2467 阅读 · 0 评论