大数据
sky@梦幻未来
这个作者很懒,什么都没留下…
展开
-
kafka扩容重平衡分区数据
问题描述:kafka集群扩容进行重新分区后需要对分区重平衡,否则容易导致分区数据倾斜。详细过程请参考原博客:https://www.cnblogs.com/qcloud1001/p/8330233.html注意:重分区是对分区切片所在节点的重新分配,而不是数据由旧分区平衡到新分区...转载 2019-11-12 17:54:16 · 2979 阅读 · 0 评论 -
解决在java中调用scala类打包报异常的问题
问题描述在java中调用scala类能正常调用,但是在使用maven打包的时候报错,报错如下:[ERROR] /C:/Users/renre/IdeaProjects/MavenTest/src/main/java/aldwxconfig/Test.java:[3,13] 程序包utils不存在[ERROR] /C:/Users/renre/IdeaProjects/MavenTest/sr...原创 2019-10-18 13:52:16 · 2214 阅读 · 3 评论 -
openresty安装nginx和lua以及lua调用
openresty安装nginx和lua调用用过nginx的人都知道,nginx用起来比较顺手也有很多的特性。但是在nginx上开发却成了一个很大的难点,因为Nginx模块的开发涉及到C语言,而且必须符合一系列复杂的规则,这就要求开发者必须非常熟悉Nginx的源代码,而且开发的C模块必须与源代码完美契合,这使得许多开发者望而生畏。openresty的产生为我们解决了这个难题,openresty允...转载 2019-08-20 11:10:10 · 660 阅读 · 0 评论 -
怎样使用spark的pipe调用外部程序
版权声明:本文为博主原创文章,转载请附上原文出处链接和本声明怎样使用spark的pipe调用外部程序Spark在RDD上提供pipe()方法。Spark的pipe()方法可以让我们使用任意一种语言实现Spark作业中的部分逻辑,只要它能读写Unix标准的流就行。通过pipe(),你可以将RDD中的各元素从标准输入流中以字符串形式读出,并对这些元素执行任何你需要的操作,然后把结果以字符串的形式写...原创 2019-08-15 15:58:16 · 2556 阅读 · 0 评论 -
手动实现userAgent解析
**手动实现userAgent解析**原创 2019-08-28 17:47:11 · 711 阅读 · 0 评论 -
python实现监控sparkStreaming并失败重启
python实现监控sparkStreaming并失败重启本博客实现了对mysql,hive,sparkStreaming的监控,具体步骤如下:1.安装依赖安装wheelpip install wheel安装saslpip install D:\python\sasl-0.2.1-cp36-cp36m-win_amd64.whl注:需要下载与python 版本对应的sasl,我的...原创 2019-08-29 15:27:41 · 354 阅读 · 0 评论 -
openresty+lua实现实时写kafka
一.背景在使用openresty+lua+nginx+flume,通过定时切分日志发送kafka的方式无法满足实时性的情况下,小编开始研究openresty+lua+nginx+kafka实时写kafka,从而达到数据实时性,和高性能保证。实现如下:1.openresty安装nginx,以及lua的使用请看博主上一篇博客https://blog.csdn.net/qq_29497387/a...原创 2019-09-24 17:32:50 · 3235 阅读 · 0 评论