scala 处理各类时间格式汇总 日期处理格式备份:object GetPostTime { val month = "[A-Z][a-zA-Z]{1,9}" val year = "\\d{4}" val twoNum = "\\d{1,2}" val pattern1 = s"($twoNum $month $year)".r //1 April 2018 val patter...
GraphX编程指南(spark2.4) 本文是在学习graph的时候顺便翻译为中文,以便以后查阅,如果大家阅读过程中发现问题,请大家指正。thx目录概述开始属性图属性图示例图操作图操作概览属性操作结构操作连接运算邻域聚合Aggregate Messages (aggregateMessages)Map Reduce 三元组过度指南(遗留)计算度Collecting Neighb...
kafka 重复数据读取原因 之前一直遇到kafka数据读取重复的问题,但都通过一些方式去避免了,今天专门去探究了下原因。出现这个问题,一般都是设置kafkaoffset自动提交的时候发生的。原因在于数据处理时间大于max.poll.interval.ms(默认300s),导致offset自动提交失败,以致offset没有提交。重新读取数据的时候又会读取到kafka之前消费但没有提交offset的数据,从而导致读...
Ambari 2.4.1 安装HDP 2.5中遇到的问题解决 本人是Ambari新手,第2词安装Ambari及HDP,上次次安装比较顺利,因为服务器上比较干净没有残余,这次是由于想使用spark2.0,本来从ambari从2.4.0升级到2.4.1,及HDP从2.4.2升级到2.5都很顺利,但是在使用spark2.0时程序老报错,我就想再使用spark1.6.2试试,但之前把这个版本从Ambari中删除了,就要重装,再加上手贱又把spark2.0也从amba
从window访问hbase的问题 windows 不能远程访问Hbase,通常都是由于windows 中的hosts文件没有配置hbase的重定向,在host中加入如下配置:171.221.173.195 master 171.221.173.195为Hbase的服务器ip,master为机器名如果配置了也不能访问,考虑hosts文件的问题,在hosts文件中配置127.0.0.1 www.baidu.co
扩展DailyRollingFileAppender使其支持限定日志文件的数量 本文用于备忘直接上代码:package hirebigdata.spider.linkedin.utils;import org.apache.log4j.DailyRollingFileAppender;import org.apache.log4j.FileAppender;import org.apache.log4j.Layout;import or
对hadoop中copyFromLocalFile 的小测试 刚开是学习hadoop,运行一个hadoop文件复制相关的小例子:public class CopyFile { public static void main(String[] args) throws IOException { // TODO Auto-generated method stub Configuration conf =new Configuration(