spark
文章平均质量分 77
jjfnjit
这个作者很懒,什么都没留下…
展开
-
Spark机器学习2
2. 设计机器学习系统原创 2015-11-18 17:30:21 · 610 阅读 · 0 评论 -
Spark机器学习5
5. Spark构建分类模型分类是监督学习的一种形式,我们用带有类标记或者类输出的训练样本训练模型。5.1 分类模型的种类Spark中常见的三种分类模型:线性模型、决策树和朴素贝叶斯模型。 线性模型:简单而且相对容易扩展到非常大的数据集决策树:一个强大的非线性技术,训练过程计算量大而且较难扩展,但是在很多情况下性能很好。朴素贝叶斯模型:简单,易训练,并且具有高效和并行的优点原创 2015-11-02 12:17:23 · 2046 阅读 · 0 评论 -
Spark机器学习1
1. Spark的环境搭建与运行Spark的本地模式与集群模式完全兼容,本地编写和测试过的程序仅需增加少许设置便能在集群上运行。任何Spark程序的编写都是从SparkContext(或用Java编写时的JavaSparkContext)开始的。SparkConf对象包含了Spark集群配置的各种参数,SparkContext的初始化需要一个SparkConf对象。要想通过Scala来使原创 2015-10-13 14:14:45 · 1057 阅读 · 1 评论 -
Spark机器学习3
3. Spark上数据的获取、处理与准备3.1 获取公开数据集MovieLens数据集:包含表示多个用户对多部电影的10万次评级数据,也包含电影元数据和用户属性信息。下载数据集,解压unzip ml-100k.zip会创建一个名为ml-100k的文件夹,进入文件夹 cd ml-100k其中重要的文件有u.user(用户属性文件)、u.item(电影元数据)和u.data(用户对电影的评级)原创 2015-11-18 17:31:56 · 1871 阅读 · 0 评论 -
Spark1.0.2 Standalone 模式部署
节点说明 IP 用户名 主机名 角色 10.6.2.109 hadoop client Spark客户端 10.6.2.111 hadoop master HDFS(NameNode,SecondNameNode);Spark(Master,Worker) 10.6.2.112 hadoop worker1 HDFS(DataNode);转载 2015-09-12 17:17:21 · 500 阅读 · 0 评论 -
scala学习(数组,元组)
1. 数组相关操作如果需要一个长度不变的数组,可以用Scala中的Array,提供初始值时不要使用newval nums = new Array[Int](10) //10个整数的数组,所有元素初始化为0val s = Array("hello","world") //提供初始值时,不需要使用new对于长度按需要变化的数组,可以使用Scala中的ArrayBuffer原创 2015-12-23 22:19:45 · 6264 阅读 · 1 评论 -
Scala学习(基础,控制结构)
1. 基础以val定义的值是常量val a = 0 //a的值是不可变的以var定义的值是变量var b = 0 //b的值是可变的不需要给出值或变量的类型,这个信息可以从你用来初始化它得表达式推断出来,声明值或变量但不做初始化会报错在Scala中,变量或者函数的类型总是写在变量或者函数的后面val c: String = "hello"原创 2015-12-23 21:13:07 · 989 阅读 · 0 评论