![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 75
Azoobie
这个作者很懒,什么都没留下…
展开
-
Spark简介
Spark集群由一个驱动程序和多个执行程序构成。任何spark程序的编写从SparkContext开始。SparkContext的初始化需要SparkConf对象,SparkConf包含spark集群配置的各种参数。初始化后可用SparkContext对象包含的方法创建操作分布式数据集和共享变量。Spark shell可自动完成上述初始化。从./bin运行spark-shell或p原创 2016-06-25 22:27:29 · 332 阅读 · 0 评论 -
Spark机器学习笔记2--设计机器学习系统
为智能分布式机器学习系统设计高层架构,该系统以Spark作为其核心计算引擎。现代的大数据场景包含如下需求:1) 必须与系统的其他组件整合,尤其是数据的收集和存储系统、分析和报告以及前端应用。2) 易于扩展且与其他组件相对独立。同时具备良好的水平和垂直可扩展性。3) 高效计算,支持机器学习和迭代式分析应用。4) 同时支持批处原创 2016-06-26 17:57:59 · 750 阅读 · 0 评论 -
Spark机器学习笔记1--Spark Python编程入门
1. 处理如下数据2. Python代码#创建两个线程的SparkContext对象,名为 First Spark Appsc = SparkContext("local[2]", "First Spark App")#读取原始数据并将CSV格式装换为(user, product, price)形式data = sc.textFile("data/Us原创 2016-06-25 22:31:08 · 665 阅读 · 0 评论 -
在linux环境下安装和配置Spark
1. 搭建java开发环境 (1) 安装JDK(下载,解压,配置环境变量)下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html解压>tar xfzvjdk-8u91-linux-i586.tar.gz设置路径和环境变量将解压后原创 2016-06-15 22:51:21 · 3997 阅读 · 0 评论 -
Spark机器学习笔记3--探索和可视化数据
常用机器学习数据库UCL机器学习知识库Amazon AWS公开数据集KaggleKDnuggets【数据准备】在http://files.grouplens.org/datasets/movielens/下载用户电影评级数据,用户信息和属性信息。unzip命令解压文件1) 安装IPython和matplotlib模块IPython是针对Python的高级交原创 2016-06-30 22:51:10 · 2445 阅读 · 0 评论