![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 83
小小的_我
这个作者很懒,什么都没留下…
展开
-
Spark日常
1 、网络传输问题 将数据从hdfs拷贝至本地(json格式)数据量太大可能造成数据个别数据不是标准的json格式,解决方法:代码调用脚本get数据到本地原创 2018-03-02 11:42:23 · 150 阅读 · 0 评论 -
Phoenix入门到精通
Phoenix 使用说明Phoenix是什么Phoenix查询引擎支持使用SQL进行HBase数据的查询,会将SQL查询转换为一个或多个HBase API,协同处理器与自定义过滤器的实现,并编排执行。使用Phoenix进行简单查询,其性能量级是毫秒。更多的信息可以参考官网:http://phoenix.apache.org/使用说明 准备工作 准备一个内网的ECS,需要和...转载 2018-11-30 10:49:01 · 218 阅读 · 0 评论 -
kafka性能调优
主要优化原理和思路kafka是一个高吞吐量分布式消息系统,并且提供了持久化。其高性能的有两个重要特点:利用了磁盘连续读写性能远远高于随机读写的特点;并发,将一个topic拆分多个partition。要充分发挥kafka的性能,就需要满足这两个条件kafka读写的单位是partition,因此,将一个topic拆分为多个partition可以提高吞吐量。但是,这里有个前提,就是不...转载 2018-11-30 10:22:40 · 213 阅读 · 0 评论 -
kafka的OffsetOutOfRangeException
自从把spark 从1.3升级到1.6之后,kafka Streaming相关问题频出。最近又遇到了一个。 job中使用Kafka DirectStream 读取topic中数据,然后做处理。其中有个测试job,停止了几天,再次启动时爆出了kafka.common.OffsetOutOfRangeException。下文记录下异常分析与解决过程。异常分析从字面意思上,说是kafka top...转载 2018-11-30 10:07:49 · 4499 阅读 · 1 评论 -
kafka性能调优
主要优化原理和思路kafka是一个高吞吐量分布式消息系统,并且提供了持久化。其高性能的有两个重要特点:利用了磁盘连续读写性能远远高于随机读写的特点;并发,将一个topic拆分多个partition。要充分发挥kafka的性能,就需要满足这两个条件kafka读写的单位是partition,因此,将一个topic拆分为多个partition可以提高吞吐量。但是,这里有个前提,就是不同pa...转载 2018-11-23 11:01:22 · 121 阅读 · 0 评论 -
"main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/la
分析步骤:1、系统环境变量配置HADOOP_HOME ,并且添加进path 变量里;2、HADOOP_HOME\bin 里是否有hadoop.dll 和 winutils.exe 这两个文件3、C: windows\System32 里是否有hadoop.dll 文件 ,记得重启电脑噢!!! ...转载 2018-11-19 14:44:34 · 164 阅读 · 0 评论 -
新的可视化帮助更好地了解Spark Streaming应用程序
Spark UI中的Streaming标签页来显示以下信息: 时间轴视图和事件率统计,调度延迟统计以及以往的批处理时间统计 每个批次中所有JOB的详细信息 此外,为了理解在Streaming操作上下文中job的执行情况,有向无环执行图的可视化( execution DAG visualization )增加了Streaming的信息。让我们通过一个从头到尾分析Streaming...转载 2018-10-31 18:08:25 · 169 阅读 · 0 评论 -
spring-sparkstreaming-kafka10集成实现和疑难杂症解决
一.前期准备1.开发环境window7eclipsejdk1.82.linux环境zookeeper-3.4.8hadoop-2.6.4spark-1.6.0scala-2.10.6kafka_2.10-0.10.1.0各环境的安装和部署请自行准备。二.疑难杂症1. spark+scala+kafka版本要一致2. org.apache.spark.SparkExcep...转载 2018-10-17 11:03:43 · 885 阅读 · 0 评论 -
Scala中特质trait与抽象类abstract的区别
什么时候应该使用特质而不是抽象类? 如果你想定义一个类似接口的类型,你可能会在特质和抽象类之间难以取舍。这两种形式都可以让你定义一个类型的一些行为,并要求继承者定义一些其他行为。一些经验法则:优先使用特质。一个类扩展多个特质是很方便的,但却只能扩展一个抽象类。 如果你需要构造函数参数,使用抽象类。因为抽象类可以定义带参数的构造函数,而特质不行。例如,你不能说trait t(i: Int)...转载 2018-10-12 11:25:02 · 999 阅读 · 0 评论 -
hbase_使用中遇到的问题(CallTimeoutException)
1. CallTimeoutException Caused by: java.net.SocketTimeoutException: callTimeout=60000, callDuration=139094: row '' on table 'hbase:meta' at region=hbase:meta,,1.1588230740, hostname=hykj-slave-4,6...转载 2018-08-15 15:59:41 · 3757 阅读 · 0 评论 -
批量生成伪数据
Data-Processer简介1、是什么?他是一个模拟数据生成器。我们在测试过程中,产生完整、全面的真实数据可能比较困难。我们可以根据需求,创建对应的模版和词典,利用数据模拟生成器生成我们需要的模拟数据。2、能做什么?他能够根据构建的模版和词典,生成我们需要的数据。三个应用场景:测试场景测试过程中,我们需要验证数据后端的功能或性能,此时,需要降低与数据产生端的耦合,那么需要一个稳定优秀的数据生成...转载 2018-06-05 17:53:19 · 1252 阅读 · 1 评论 -
Spark乱码处理以及保存csv格式
import org.apache.hadoop.io.{LongWritable, Text}import org.apache.hadoop.mapred.TextInputFormatimport java.io.{StringReader, StringWriter}import org.apache.spark.SparkContextimport org.apache.spa...原创 2018-05-04 09:30:14 · 4053 阅读 · 0 评论 -
Spark 之 Had a not serializable result: org.apache.hadoop.hbase.io.ImmutableBytesWritable
1. 场景&异常:Spark 读取 Hbase 报错,代码如下:val conf = new SparkConf().setAppName("SparkHistoryTags").setMaster("local")val sc = new SparkContext(conf)// 获取HbaseRDDval hbaseRDD = sc.newAPIHadoopRDD(ge...转载 2018-12-26 10:54:06 · 1529 阅读 · 0 评论