TTT小涛-CSDN博客

原创向kafka发送大量数据报错java.lang.OutOfMemoryError: Java heap space

我们还需要配置kafka-server-start.sh 将启动命令中-Xmx1G -Xms1G加大默认是1个G，可以加大到NG根据自己的服务器及数据量来配置。在kafka的配置文件server.properties中修改socket.request.max.bytes的值，修改之后不再报错。当发送大量数据到kafka时会内存溢出java.lang.OutOfMemoryError: Java heap space。如：socket.request.max.bytes=1073741824。

2023-06-16 14:24:38 830 1

原创 kafka单条数据过大时报错

当单条数据过大时kafka报错：The request included a message larger than the max message size the server will accept

2022-07-22 17:06:09 1071 1

原创 spark数据倾斜

大数据（spark）八个点解决数据倾斜一：什么是数据倾斜？于spark/hadoop 这样的分布式大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。对于分布式系统而言，理想情况下，随着系统规模（节点数量）的增加，应用整体耗时线性下降。如果一台机器处理一批大量数据需要120分钟，当机器数量增加到3台时，理想的耗时为120 / 3 = 40分钟。但是，想做到分布式情况下每台机器执行时间是单机时...

2020-01-19 10:00:03 172

原创 bigdata存储格式parquet分享

Parquet 列式存储格式1.背景随着大数据时代的到来，越来越多的数据流向了 Hadoop 生态圈，同时对于能够快速的从TB甚至PB级别的数据中获取有价值的数据对于一个产品和公司来说更加重要，在Hadoop 生态圈的快速发展过程中，涌现了一批开源的数据分析...

2018-11-05 10:04:13 272

原创大数据利用spark on hive程序操作hive

hive on spark作者：小涛Hive是数据创库，他是处理有结构化的数据，当数据没有结构化时hive就无法导入数据，而它也是远行在mr程序之上的基于磁盘计算，然而我们今天来让hive远行在spark上，基于内存计算，在基于内存来让hive远行在内存上这样就比以前的快个几十倍，现在...

2018-09-28 11:04:10 3857 5

原创大数据中spark跟sparksql写入es数据库

作者：小涛object Legend01 {private val logger: Logger = LoggerFactory.getLogger(“Legend”)def main(args: Array[String]): Unit = {if (args.length != 1) {println(“”"|请输入applist数据的输入路径：|input:“”".stri...

2018-09-26 13:36:55 1432 1

原创大数据中elasticsearch的安装配置，为搜索而生的

作者：小涛机器的环境是linux系统ctos7.2系统jdk 1.8.45 scala 2.11 hadoop 2.8.7 spark 2.3.0机器有5台名称为hadoopambarinw hadoopnd01nw hadoopnd02nw hadoopnd03nw hadoopnd04nw解压 tar -zxvf elasticsearch-5.5.3.tar...

2018-09-26 13:25:34 389 2

weixin_40341521的博客