- 博客(7)
- 收藏
- 关注
原创 向kafka发送大量数据报错java.lang.OutOfMemoryError: Java heap space
我们还需要配置kafka-server-start.sh 将启动命令中-Xmx1G -Xms1G加大默认是1个G,可以加大到NG根据自己的服务器及数据量来配置。在kafka的配置文件server.properties中修改socket.request.max.bytes的值,修改之后不再报错。当发送大量数据到kafka时会内存溢出java.lang.OutOfMemoryError: Java heap space。如:socket.request.max.bytes=1073741824。
2023-06-16 14:24:38 830 1
原创 kafka单条数据过大时报错
当单条数据过大时kafka报错:The request included a message larger than the max message size the server will accept
2022-07-22 17:06:09 1071 1
原创 spark数据倾斜
大数据(spark)八个点解决数据倾斜一:什么是数据倾斜?于spark/hadoop 这样的分布式大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。对于分布式系统而言,理想情况下,随着系统规模(节点数量)的增加,应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟,当机器数量增加到3台时,理想的耗时为120 / 3 = 40分钟。但是,想做到分布式情况下每台机器执行时间是单机时...
2020-01-19 10:00:03 172
原创 bigdata存储格式parquet分享
Parquet 列式存储格式1.背景 随着大数据时代的到来,越来越多的数据流向了 Hadoop 生态圈,同时对于能够快速的 从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要,在Hadoop 生态圈的快速发展过程中,涌现了一批开源的数据分析...
2018-11-05 10:04:13 272
原创 大数据利用spark on hive程序操作hive
hive on spark作者:小涛Hive是数据创库,他是处理有结构化的数据,当数据没有结构化时hive就无法导入数据,而它也是远行在mr程序之上的基于磁盘计算,然而我们今天来让hive远行在spark上,基于内存计算,在基于内存来让hive远行在内存上这样就比以前的快个几十倍,现在...
2018-09-28 11:04:10 3857 5
原创 大数据中spark跟sparksql写入es数据库
作者:小涛object Legend01 {private val logger: Logger = LoggerFactory.getLogger(“Legend”)def main(args: Array[String]): Unit = {if (args.length != 1) {println(“”"|请输入applist数据的输入路径:|input:“”".stri...
2018-09-26 13:36:55 1432 1
原创 大数据中elasticsearch的安装配置,为搜索而生的
作者:小涛机器的环境是linux系统ctos7.2系统jdk 1.8.45 scala 2.11 hadoop 2.8.7 spark 2.3.0机器有5台 名称为hadoopambarinw hadoopnd01nw hadoopnd02nw hadoopnd03nw hadoopnd04nw解压 tar -zxvf elasticsearch-5.5.3.tar...
2018-09-26 13:25:34 389 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人