spark
junehappylove
上善若水。水善利万物而不争,处众人之所恶,故几于道。居,善地;心,善渊;与,善仁;言,善信;正,善治;事,善能;动,善时。夫唯不争,故无尤。
展开
-
大数据集群-这是一篇longlong的博客
ip设置:服务器中共虚拟了6台虚拟机:hadoop1 :内存8G,硬盘2T hadoop2 :内存8G,硬盘2T hadoop3 :内存8G,硬盘2T zookeeper :内存8G,硬盘2T redis :内存8G,硬盘2T ethings :内存8G,硬盘2T192.168.56.101 hadoop1 == hadoop2.7.4 + zookeeper3.4.10 +原创 2019-11-15 17:14:01 · 748 阅读 · 0 评论 -
spark-submit提交任务的方式
spark-submit命令(集群模式)限制资源,资源不足时候会卡在分配资源(–total-executor-cores 和 –executor-cores为总数和单点cores数量)spark-submit --class test.Streamings --master spark://10.102.34.248:7077 --deploy-mode cluster --executor-mem翻译 2017-10-19 18:58:13 · 2757 阅读 · 0 评论 -
Hadoop和spark中读取文件通配符使用举例
在单个操作中处理一批文件,这是一个常见的要求。举例来说,处理日志的MapReduce作业可能需要分析一个月内包含在大量目录中的日志文件。在一个表达式中使用通配符来匹配多个文件是比较方便的,无需列举第个文件 和目录来指定输入,该操作称为”通配”(globbing)。Hadoop 为执行通配提供了两个FileSystem方法:public FileStatus[] globStatus(Path pat原创 2017-11-30 17:13:11 · 3952 阅读 · 0 评论 -
Spark中RDD转换成DataFrame的两种方式(分别用Java和scala实现)
一:准备数据源在项目下新建一个student.txt文件,里面的内容为:1,zhangsan,20 2,lisi,21 3,wanger,19 4,fangliu,18 二:实现Java版:首先新建一个student的Bean对象,实现序列化和toString()方法,具体代码如下:package com.cxd.sql; import j...转载 2018-04-04 21:20:20 · 5461 阅读 · 0 评论