自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 向kafka发送大量数据报错java.lang.OutOfMemoryError: Java heap space

我们还需要配置kafka-server-start.sh 将启动命令中-Xmx1G -Xms1G加大默认是1个G,可以加大到NG根据自己的服务器及数据量来配置。在kafka的配置文件server.properties中修改socket.request.max.bytes的值,修改之后不再报错。当发送大量数据到kafka时会内存溢出java.lang.OutOfMemoryError: Java heap space。如:socket.request.max.bytes=1073741824。

2023-06-16 14:24:38 830 1

原创 kafka单条数据过大时报错

当单条数据过大时kafka报错:The request included a message larger than the max message size the server will accept

2022-07-22 17:06:09 1071 1

原创 spark数据倾斜

大数据(spark)八个点解决数据倾斜一:什么是数据倾斜?于spark/hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟,当机器数量增加到3台时,理想的耗时为120 / 3 = 40分钟。但是,想做到分布式情况下每台机器执行时间是单机时...

2020-01-19 10:00:03 172

原创 bigdata存储格式parquet分享

Parquet 列式存储格式1.背景 随着大数据时代的到来,越来越多的数据流向了 Hadoop 生态圈,同时对于能够快速的 从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop 生态圈的快速发展过程中,涌现了一批开源的数据分析...

2018-11-05 10:04:13 272

原创 大数据利用spark on hive程序操作hive

hive on spark作者:小涛Hive是数据创库,他是处理有结构化的数据,当数据没有结构化时hive就无法导入数据,而它也是远行在mr程序之上的基于磁盘计算,然而我们今天来让hive远行在spark上,基于内存计算,在基于内存来让hive远行在内存上这样就比以前的快个几十倍,现在...

2018-09-28 11:04:10 3857 5

原创 大数据中spark跟sparksql写入es数据库

作者:小涛object Legend01 {private val logger: Logger = LoggerFactory.getLogger(“Legend”)def main(args: Array[String]): Unit = {if (args.length != 1) {println(“”"|请输入applist数据的输入路径:|input:“”".stri...

2018-09-26 13:36:55 1432 1

原创 大数据中elasticsearch的安装配置,为搜索而生的

作者:小涛机器的环境是linux系统ctos7.2系统jdk 1.8.45 scala 2.11 hadoop 2.8.7 spark 2.3.0机器有5台 名称为hadoopambarinw hadoopnd01nw hadoopnd02nw hadoopnd03nw hadoopnd04nw解压 tar -zxvf elasticsearch-5.5.3.tar...

2018-09-26 13:25:34 389 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除