- 博客(10)
- 收藏
- 关注
原创 记服务器时间错误导致的数据异常
今天碰到了一个实时处理丢数据的问题。技术栈使用的是Kafka + Spark Streaming + pgsql。首先确认kafka没有丢数据,也没有堆积数据;之后看了Spark Streaming处理逻辑,代码中也没做过滤,可数据就是少了。就很懵逼。排查了很久,突然想起来可能是服务器时间不对导致的问题,结果发现真是。因为在Spark Streaming处理中,用到了批对应的batchtime,这个时间就是系统的时间,所以导致很多数据不能成功写入。教训:写代码尽量少依赖操作系统的时间出现莫
2020-09-28 23:25:49 802
原创 Spark Streaming fileStream基于文件的流计算
通过Spark Streaming提供的fileStream来实时处理落在hdfs中的文件
2020-09-12 18:57:01 1113
原创 使用Java发送Socket消息到Spark Streaming
使用Java ServerSocket来发送Socket消息,在Spark Streaming中通过socketTextStream来接收消息。
2020-09-12 00:56:15 556
原创 Java Apache Commons CLI
commons-cli是一个解析命令行输入的工具包。能够让我们的Java程序实现类似如下的效果:[root@upupfeng ~]# ls --helpUsage: ls [OPTION]... [FILE]... -a, --all do not ignore entries starting with . -A, --almost-all do not list implied . and .. --author
2020-09-09 00:15:47 708
原创 Spark Streaming中的有状态计算
Spark Streaming中使用updateStateByKey和mapWithState算子来实现有状态计算
2020-09-06 19:54:57 1721
原创 Hive on Spark配置
Hive on Spark:基于Spark的Hive,实质上是将Hive默认的计算引擎MapReduce替换成Spark。
2020-09-02 00:20:05 6975
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人