大数据
骑码找马
学习编程
展开
-
【大数据】广播变量调优
其实就是把一组数不需要再弄成rdd了,直接以变量形式播发给各个excuter,不使用广播变量那么会播发给各个task,excuter肯定比task少那么播发给excuter就优化一些了,这里相当于excuter变量相当于全局变量,每个task再使用时候向其最近的excuter申请就可以了,下面给出一个广播变量应用实例://查询日志中每个省所拥有的资源数import org.apache.log4j.{Level, Logger}import org.apache.spark.broadcast原创 2020-05-30 16:55:07 · 261 阅读 · 0 评论 -
【Spark】Spark常见错误
1、报错 ERROR TaskSchedulerImpl: Lost executor 3 on 172.16.0.24: Unable to create executor due to Unable to register with external shuffle server due to : Failed to connect to /172.16.0.24:7337在spark-d...原创 2019-12-17 15:43:33 · 3705 阅读 · 0 评论 -
【大数据】Spark、Hadoop高可用集群部署
hadoop、ZooKeeper、Hasaehttps://www.jianshu.com/p/aac9e9b15ce4https://blog.csdn.net/qq_25838777/article/details/80732854https://blog.csdn.net/zuochao_2013/article/details/72726378Sparkhttps://...原创 2019-12-13 21:37:05 · 455 阅读 · 0 评论 -
【大数据】Spark调试说明
本地代码运行调试:1、取消pom.xml中guava包的注释 <dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>15...原创 2019-12-04 21:07:52 · 173 阅读 · 0 评论 -
【大数据】jar包提交spark集群报错java.lang.ClassNotFoundException
主要原因是打JAR包方式不对,严格按照如下方法一定能行https://blog.csdn.net/qq_36699423/article/details/92795821原创 2019-12-04 20:28:41 · 1373 阅读 · 0 评论 -
Hadoop+Hbase高可用集群搭建
Hadoop配置1、core-site.xml配置:<configuration><!--指定默认hdfs集群服务名是哪个 --><property> <name>fs.defaultFS</name> <value>hdfs://ns1</value></pr...原创 2019-11-22 10:12:34 · 217 阅读 · 0 评论 -
Spark分析
1、如何理解分区1、分区数越多越好吗?不是的,分区数太多意味着任务数太多,每次调度任务也是很耗时的,所以分区数太多会导致总体耗时增多。2、分区数太少会有什么影响?分区数太少的话,会导致一些结点没有分配到任务;另一方面,分区数少则每个分区要处理的数据量就会增大,从而对每个结点的内存要求就会提高;还有分区数不合理,会导致数据倾斜问题。3、合理的分区数是多少?如何设置?总核数=execut...原创 2019-11-08 17:26:46 · 123 阅读 · 0 评论 -
任务队列2
先假如调用了缓冲区分析与合并分析,调用解析以上接口会得到以下Job(一个Job就是一个分析,只记录intersect或buffer或union或Clip)信息,其中给出第一个Job参数注释:[{"result":"catalog:chinese_geom,feature:ddd",//运算结果输出位置,以catalog与feature定位"jobID":"local-15728...原创 2019-11-04 00:45:49 · 120 阅读 · 0 评论 -
解析spark api获取所有job信息
package com.ht.hadoop.serviceimport java.io.{BufferedReader, InputStreamReader}import java.net.{HttpURLConnection, URL}import org.json.JSONArrayimport org.springframework.beans.factory.annotat...原创 2019-10-28 10:40:17 · 1231 阅读 · 0 评论 -
Spark程序任务队列
一、当前Spark程序所有分析任务的信息获取1、打开swagger-ui随机点选五个分析(我在原Hadoop项目加了几个单词统计分析做实验,这里使用单词统计分析主要考虑不需要连接HBase可直接本地IDEA运行,Jar包集群环境跑应该是相同的),五个分析即5个Job,打开http://ip:4040/发现当前app所有Job是排队进行的,如下:2、解析以下接口获取当前app的id...原创 2019-10-24 09:59:40 · 2992 阅读 · 0 评论 -
Spark rest api 远程提交、结束、监控任务
https://blog.csdn.net/Camu7s/article/details/71104968https://blog.csdn.net/dashenyyy/article/details/83090335监控:https://blog.csdn.net/darkWatch/article/details/84860675原创 2019-10-21 15:09:32 · 1047 阅读 · 0 评论 -
Spark shell使用案例
第一步:import org.apache.spark.{SparkConf, SparkContext}第二步:val SparkConf = new SparkConf().setAppName("My_App").setMaster("local[2]")第三步:val sc = new SparkContext(SparkConf)第四步:sc.parallelize(List(1...原创 2019-10-14 22:49:42 · 406 阅读 · 0 评论 -
Spark REST Api的使用
https://www.cnblogs.com/juncaoit/p/6379006.html原创 2019-10-13 19:21:04 · 2228 阅读 · 0 评论 -
Hadoop/Spark常用UI网址
HDFS网址:http://hostname:50070Spark WebUI进行状态http://hostname:4040Spark WebUI历史状态http://hostname:18080/http://localhost:18080/api/v1/applications原创 2019-10-13 19:15:53 · 571 阅读 · 0 评论 -
linux常用命令
1、删除文件夹删除文件夹sudo rm -rf /usr/local/scala2、删除文件删除文件:rm -f /var/log/httpd/access.log将会强制删除/var/log/httpd/access.log这个文件3、将文件夹A重命名为B将文件夹A重命名为Bmv A B4、复制黏贴并改名文件复制黏贴并改名文件cp /opt...原创 2019-06-29 21:23:58 · 79 阅读 · 0 评论 -
GeoJSON字符串与SimpleFeature要素之间互转换
重要工具类:org.geotools.geojson.feature.FeatureJSON将SimpleFeature要素feature转换为GeoJSON字符串输出val feajson = new FeatureJSONprintln(feajson.toString(feature))将GeoJSON字符串str转换为SimpleFeature要素val fea...原创 2019-08-12 14:25:16 · 2749 阅读 · 1 评论 -
SparkRDD的理解
spark简介 RDD是什么 RDD是什么 RDD在Spark中的地位及作用 RDD底层实现原理 RDD cache的原理 RDD的位置可见性(location preference) 如何操作RDD? SparkSQL的shuffle过程 https://www.cnblogs.com/wzj4858/p/8...转载 2019-08-16 21:40:32 · 287 阅读 · 0 评论 -
Merge与Intersect
原创 2019-08-17 23:02:03 · 265 阅读 · 0 评论 -
求Pi的spark程序
//import com.ht.bigdata.service.InsertectService.IntersectService;//import org.springframework.boot.SpringApplication;//import org.springframework.boot.autoconfigure.SpringBootApplication;//import...原创 2019-08-22 19:09:19 · 151 阅读 · 0 评论 -
Spark集群启动与查看Spark集群进程启动情况
集群启动次序Hadoop---->Spark----->ZooKeeper---->HBase除了ZooKeeper需要每个机器挨个启动,其他的进程只需要启动主节点查看进程原创 2019-08-18 14:58:53 · 5698 阅读 · 0 评论 -
sparkSession、SparkConf、sparkContext之间关系
通过以下代码是等价的理解sparkSession、SparkConf、sparkContext之间关系 val sparkSession = SparkSession.builder() .appName("spatialQuery") .config("spark.sql.crossJoin.enabled", "true") // ....原创 2019-09-28 16:14:38 · 1446 阅读 · 0 评论 -
RDD转DataFrame实例
本篇文章一目了然:https://blog.csdn.net/zhanglh046/article/details/78360938原创 2019-09-28 16:16:22 · 121 阅读 · 0 评论 -
Spark监控
一、REST API:https://www.jianshu.com/p/82ffe71573f9二、SparkAppListener:https://www.jianshu.com/p/0ab692416c94三、web UI:https://www.cnblogs.com/xuziyu/p/11049350.html原创 2019-10-09 11:01:07 · 215 阅读 · 0 评论 -
GeoMesa部署
(1)解压压缩包至指定目录(2)修改/conf/geomesa-env.sh文件添加:export HBASE_HOME=/usr/local/hbase-1.4.4export HADOOP_HOME=/usr/local/hadoop-2.7.6export GEOMESA_HBASE_HOME=/usr/local/geomesa-hbase_2.11-2.3.0expo...原创 2019-08-11 15:49:57 · 643 阅读 · 0 评论 -
ZooKeeper与HBase集群搭建
一、ZooKeeper安装配置(1)解压ZooKeeper的压缩包到指定位置。(2)复制conf中文件zoo_sample.cfg为zoo.cfg,cp zoo_sample.cfg zoo.cfg(3)编辑zoo.cfg 修改dataDir=/usr/local/Zookeepdata 新增//新增如下dataDir=/usr/local/zookeeper-3.4.10/...原创 2019-08-11 13:01:12 · 277 阅读 · 0 评论 -
【spark rdd编程】求和
int counter = 0;JavaRDD<Integer> rdd = sc.parallelize(data);// Wrong: Don't do this!!rdd.foreach(x -> counter += x);println("Counter value: " + counter);原创 2019-07-20 10:35:17 · 2943 阅读 · 1 评论 -
spark编程基础代码
原创 2019-07-18 11:36:44 · 1383 阅读 · 0 评论 -
缓冲区
ApplicationConfigurationpackage com.example.demo;import java.io.Serializable;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaSparkContext;import org.springframework.con...原创 2019-07-18 09:46:11 · 276 阅读 · 0 评论 -
liunx(centos)安装java jdk与scala
1.下载从Oracle官网上下载Linux x64版本的jdk-8u201-linux-x64.tar.gz(使用Linux下载)2.建立文件夹在usr/local目录下新建一个名为java文件夹(到时候jdk就安装在这个文件夹中)3.解压解压至java文件夹在usr/local/java下的终端通过命令解压jdk:tar -zxv -f jdk-8u201-linu...原创 2019-06-24 15:41:26 · 244 阅读 · 0 评论 -
liunx由桌面模式切换至输入命令模式
进入桌面系统——右键——终端(terminal)——输入su -——输入密码(输入密码时候光标不动弹)回车——进入root下——输入init 3回车原创 2019-06-10 20:12:06 · 400 阅读 · 0 评论 -
windows下使用VMware安装linux虚拟机及克隆虚拟机
1.linux操作系统安装包(censts)下载网易镜像——centos——6/——isos/——x86_64/——CentOS-6.10-x86_64-bin-DVD1.iso2.VMware下载安装链接:https://pan.baidu.com/s/1gxOxfzuX4ccP5w4PUqSQGw提取码:0d0f3.linux安装https://www.jianshu...原创 2019-06-08 19:16:24 · 512 阅读 · 0 评论 -
【Scala编程_4】IDEA快捷键
Ctrl+W 语法词选择, 利用这种方法可以快速选择对象, 重点是进行接下来的操作. Ctrl+Alt+V 引入新变量 Ctrl+Shift+J 连接行 Ctrl+X 剪切行 Ctrl+D 复制行 Ctrl+Q 调出 API 帮助信息 Ctrl+B 调出定义 Ctrl+U 调出使用 (自定义 Find Usage) Alt+I...原创 2019-05-28 17:08:12 · 1119 阅读 · 0 评论 -
【Scala编程_3】|数组
package package_1object prit_first { def main(args: Array[String]): Unit = { val arr=Array("ada","das","343"); for(i<-arr) { println(i) } }}package package_1import...原创 2019-05-28 15:54:53 · 110 阅读 · 0 评论 -
【spark rdd编程】rdd元素的打印
打印全部元素rdd.collect().foreach(println)打印部分元素rdd.take(100).foreach(println)原创 2019-07-20 10:39:18 · 610 阅读 · 0 评论 -
基于Spark rdd的单词计数,Java与Scala版本
步骤:1.创建RDD 2.将文本进行拆分 (flatMap) 3.将拆分后的单词进行统计 (mapToPair,reduceByKey) 4.反转键值对 (mapToPair) 5.按键升序排序 (sortedByKey) 6.再次反转键值对 (mapToPair) 7.打印输出(foreach)Java版本public class SortWordCount { ...原创 2019-07-24 21:06:50 · 967 阅读 · 0 评论 -
基于Spark的大数据空间分析与运算方法研究
利用大数据计算做空间分析与运算,提供缓冲区分析、叠加分析、裁剪、合并等空间分析与运算接口和调用示例。1、缓冲区建立任务要求:利用大数据计算,对大数据库中存储的点、线、面等空间数据,自动建立其周围一定宽度范围内的缓冲区多边形图层解决方案:以符合GeoJson数据格式的空间空间要素字符串为输入对象 将GeoJson字符串进行切分,并判断每一个GeoJson字符串属于什么图形要素类型(...原创 2019-07-25 09:10:58 · 1650 阅读 · 0 评论 -
Centos7不锁屏
原创 2019-07-28 20:05:49 · 932 阅读 · 0 评论 -
Centos虚拟机IP及名称
IP 机器名 主机名 用户名 用户名密码 192.168.42.4 linux_1 hadoop01 hadooop 987pm321 192.168.42.5 ...原创 2019-07-28 19:22:42 · 148 阅读 · 0 评论 -
【大数据】利用Geomesa从HBase数据库中导出shp数据并分析数据组成
package com.ht.bigdata.serviceimport org.apache.hadoop.conf.Configurationimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}import org.geotools.data.{DataStoreFinder,...原创 2019-08-05 22:07:58 · 1097 阅读 · 0 评论 -
【大数据】shapfile导入HBase数据库后形成的Simplefeather字段
the_geom:几何要素osm_idcodefclassnametype原创 2019-08-05 22:01:06 · 147 阅读 · 0 评论