spark
文章平均质量分 63
代码_c
这个作者很懒,什么都没留下…
展开
-
spark第2天
spark原创 2017-12-01 22:43:34 · 157 阅读 · 0 评论 -
spark快速大数据分析(4)
调用reduceBykey()和foldBykey()会在为每个键计算全局的总结过之前先自动在每台机器上进行本地合并,用户不需要指定合并器。每个RDD都有固定数目的分区,分区数决定了在RDD上执行操作时的并行度。(分区运行在集群中的不同节点上)spark始终尝试根据集群的大小推断出一个有意义的默认值,但是有时候你可能要对并行度进行调优来获取更好的性能表现。...原创 2018-05-11 16:37:14 · 147 阅读 · 0 评论 -
spark快速大数据分析
序spark是一个通用计算框架。spark是一个大一统的软件栈。spark是大数据处理引擎。—————————前言spark主要有三个优点:spark好用,高级API剥离了对集群本身的关注,可以专注于计算本身。spark很快,支持交互式使用和复杂算法。spark是通用引擎,可以用于各种运算:sql查询、文本处理、机器学习(MLib机器学习库)等。—————————spark数据分析导论spark是...原创 2018-04-06 23:15:00 · 789 阅读 · 0 评论 -
spark快速大数据分析(2)
spark下载与入门spark shell其他shell工具只能使用单机的硬盘和内存来操作数据,而spark shell可以用来与分布式存储在许多机器的内存或者硬盘上的数据进行交互,并且处理过程的分发由spark自动控制完成。spark支持许多语言版本,此处交互式shell部分只考虑Python版本(PySpark Shell)和Scala版本(Spark-sehll)。进入PySpark She...原创 2018-04-07 23:19:32 · 433 阅读 · 0 评论 -
spark第7天-linux
下载jdk进入jdk官方下载地址,下载java se 7,按照教材选择的比较简单的rpm出现插曲Sorry, you must accept the License Agreement before downloading,仔细看上方有需要勾选的accept the license默认下载到下载文件夹里,把它搬到了/opt/java文件夹中,注意sudo权限问题,以及可以直接sudo -s进入ro...原创 2018-03-23 17:03:13 · 273 阅读 · 0 评论 -
spark——linux
尝试在linux系统上运行spark。找了一篇文章,没有具体安装步骤,但是后面的代码段还挺清晰的,没有利用到intellij,直接用的spark-she'll,出来的"scala>"后面写代码。马住尝试一下在win上和linux上都可以试一试。最后还有spark streaming和spark应用程序。16年1月份的,还是有点早。http://www.powerxing.com/spark-...原创 2018-03-04 23:13:36 · 381 阅读 · 0 评论 -
spark第1天
写在前面从11月的最后一天开始呢,尝试一下自己一个人默默研究多久能跑出spark程序。接下来一点点记录下自己的轨迹。搜索按照上级师姐的一点经验建议。spark对各部件的版本要求很苛刻,jdk版本、Hadoop版本、Scala版本都很严格。先不弄集群,不直接在本电脑的win7系统上搭建环境,利用intellij这种可以运行的开发环境里直接上。网上按照关键字“intellij搭建s原创 2017-11-30 22:46:41 · 170 阅读 · 0 评论 -
spark第6天
实例创建新RDDRDD通过Hadoop inputformats(比如说HDFS文件系统)或transforming其他RDD来创建。在spark source directory中的README文档新建一个新的RDD。利用spark-shell提供的sc(spark content)来读取这个README文档,通过方程“textFile”,返回一个数组包含文档中的各个行。这样就创建了一个新的RD原创 2018-01-19 12:43:27 · 274 阅读 · 0 评论 -
spark第5天
spark原创 2018-01-15 11:21:45 · 174 阅读 · 0 评论 -
spark第4天
spark原创 2018-01-02 19:45:09 · 149 阅读 · 0 评论 -
spark云计算环境下的大数据
spark原创 2017-12-11 13:10:48 · 3823 阅读 · 1 评论 -
spark第3天
spark。现原创 2017-12-04 10:50:57 · 156 阅读 · 0 评论 -
spark快速大数据分析(3)
spark官方文档中的快速入门指南:http://spark.apache.org/docs/latest/quick-start.html本书的github仓库:https://github.com/databricks/learning-spark__________________________________________RDD基础spark核心概念、核心抽象弹性分布式数据集Resil...原创 2018-05-07 23:30:41 · 609 阅读 · 0 评论