scala
2Tree
专注后端开发
展开
-
Spark的RDD编程指南
RDD编程指南概观 与Spark链接 初始化Spark 使用Shell 弹性分布式数据集(RDD) 并行化集合 外部数据集 RDD操作 基本 将函数传递给Spark 了解闭包 例 本地与群集模式 打印RDD的元素 使用键值对 转换 操作 随机操作 背景 绩效影响 RDD持...翻译 2018-08-15 13:19:53 · 315 阅读 · 0 评论 -
specs_2.8.0-1.6.5.jar of scala-demo build path is cross-compiled with an incompatible version of Sca
Description Resource Path Location Typespecs_2.8.0-1.6.5.jar of scala-demo build path is cross-compiled with an incompatible version of Scala (2.8.0). In case this report is mistaken, thi...原创 2018-08-20 17:51:05 · 911 阅读 · 0 评论 -
Spark的应用场景有哪些?
Spark 是一种与 Hadoop 相似的开源集群计算环境,是专为大规模数据处理而设计的快速通用的计算引擎,现已形成一个高速发展应用广泛的生态系统,主要应用场景如下: 1. Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小; 2. 由于RDD的特性,Spa...原创 2018-08-20 12:02:50 · 18527 阅读 · 0 评论 -
Spark 实战,第 6 部分: 基于 Spark ML 的文本分类
转自:https://blog.csdn.net/qq_28743951/article/details/53872829引言文本分类是一个典型的机器学习问题,其主要目标是通过对已有语料库文本数据训练得到分类模型,进而对新文本进行类别标签的预测。这在很多领域都有现实的应用场景,如新闻网站的新闻自动分类,垃圾邮件检测,非法信息过滤等。本文将通过训练一个手机短信样本数据集来实现新数据样本的分类...转载 2018-08-16 16:54:51 · 973 阅读 · 0 评论 -
Spark 实战,第 5 部分: 使用 ML Pipeline 构建机器学习工作流
转自:https://blog.csdn.net/qq_28743951/article/details/53872794引言使用机器学习 (Machine Learning) 技术和方法来解决实际问题,已经被成功应用到多个领域,我们经常能够看到的实例有个性推荐系统,金融反欺诈,自然语言处理和机器翻译,模式识别,智能控制等。一个典型的机器学习机器学习过程通常会包含:源数据 ETL,数据预处...转载 2018-08-16 16:52:54 · 910 阅读 · 0 评论 -
Spark 实战,第 4 部分: 使用 Spark MLlib 做 K-means 聚类分析
转自:https://blog.csdn.net/qq_28743951/article/details/53872757引言提起机器学习 (Machine Learning),相信很多计算机从业者都会对这个技术方向感到兴奋。然而学习并使用机器学习算法来处理数据却是一项复杂的工作,需要充足的知识储备,如概率论,数理统计,数值逼近,最优化理论等。机器学习旨在使计算机具有人类一样的学习能力和模...转载 2018-08-16 16:51:33 · 4879 阅读 · 0 评论 -
Spark 实战,第 3 部分: 使用 Spark SQL 对结构化数据进行统计分析
转自:https://blog.csdn.net/qq_28743951/article/details/53872706引言在很多领域,如电信,金融等,每天都会产生大量的结构化数据,当数据量不断变大,传统的数据存储 (DBMS) 和计算方式 (单机程序) 已经不能满足企业对数据存储,统计分析以及知识挖掘的需要。在过去的数年里,传统的软件开发和维护人员已经积累了大量的基于 DBMS 的操作...转载 2018-08-16 16:49:15 · 3240 阅读 · 0 评论 -
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
转自:https://blog.csdn.net/qq_28743951/article/details/53872634引言在很多领域,如股市走向分析, 气象数据测控,网站用户行为分析等,由于数据产生快,实时性强,数据量大,所以很难统一采集并入库存储后再做处理,这便导致传统的数据处理架构不能满足需要。流计算的出现,就是为了更好地解决这类数据在处理过程中遇到的问题。与传统架构不同,流计算模...转载 2018-08-16 16:46:19 · 715 阅读 · 0 评论 -
Spark 入门实战之最好的实例
转载:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/搭建开发环境安装 Scala IDE 搭建 Scala 语言开发环境很容易,Scala IDE 官网 下载合适的版本并解压就可以完成安装,本文使用的版本是 4.1.0。 安装 Scala 语言包 如果下载的 Scala IDE 自带的...转载 2018-08-16 16:34:28 · 45151 阅读 · 7 评论 -
JAVA程序员的SCALA教程
作者:Michel Schinz和Philipp Haller介绍本文档简要介绍了Scala语言和编译器。它适用于已经拥有一些编程经验并希望了解他们可以使用Scala做什么的人。假定了面向对象编程的基本知识,特别是在Java中。第一个例子作为第一个例子,我们将使用标准的Hello world程序。它不是很吸引人,但可以很容易地演示Scala工具的使用,而不必过多地了解语言。以下是它...翻译 2018-08-16 16:23:17 · 412 阅读 · 0 评论 -
Scala循环中的“break”中断
Scala中没有内置的break语句,但是如果您运行的是Scala 2.8版本,则可以使用break语句。当循环中遇到break语句时,循环将立即终止,程序控制跳到循环之后的下一个语句执行。语法以下是break语句的语法 -// import following packageimport scala.util.control._// create a Breaks objec...原创 2018-08-21 10:40:58 · 1041 阅读 · 0 评论