自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

涤生大数据

在职大数据架构专家,擅长大数据开发,组件调优,集群运维架构。当前管理1500+节点大数据集群,100PB+数据,爱好python,爬虫。免费给所有转行大数据小白,大数据初级开发者提供职业规划和学习定制建议,欢迎大家交流

  • 博客(17)
  • 资源 (3)
  • 问答 (1)
  • 收藏
  • 关注

原创 UDF函数:删除列中的重复值(去重)

需求:import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;import java.util.Arrays;import java.util.HashSet;/** * @param * ...

2018-04-30 18:05:37 5061

原创 UDF函数:判断日期是否为月末日期?

需求:判断一个日期是否为当月月末日期?import org.apache.commons.lang.StringUtils;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.BooleanWritable;import java.text.ParseException;import java.tex...

2018-04-30 17:46:37 5486

原创 UDF函数:返回输入日期的月末日期

需求:输入日期,返回当前日期的月末日期import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache...

2018-04-30 17:39:31 7078

原创 UDF函数:返回任意日期属于一年中的第几周

需求:给定任意符合要求的日期,返回其属于当年的第几周?package cnsuning.udf.functions.date;import org.apache.commons.lang.time.DateUtils;import org.apache.hadoop.hive.ql.exec.UDF;import org.apache.hadoop.io.Text;import j...

2018-04-30 17:34:04 5164

原创 hive程序报错OOM,内存不足,OutOfMemoryError: Java heap space等解决方式

执行hive定时任务,发现有个定时任务报如下错误,Error: Java heap space. 查询平台日志,显示mapreduce都已经执行成功了,脚本没有问题,没有报错,那就是平台问题了 查看hadoop日志发现,实际上有4个map没有执行成功,而reduce就没有执行,说明调度平台显示的日志信息不准确。进入对应的4个map中查看日志,发现真实报内存溢出错误 ...

2018-04-29 17:27:33 63090 5

原创 UDF函数根据输入日期返回月末日期

需求:输入日期,返回该月月末的日期(注意润年容易出错)import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;import org.apache.hadoop.hive.ql.exec.UDF;/** * 输入日期,...

2018-04-21 17:51:18 4870 1

原创 UDF函数返回给定日期的月初日期

 需求:给定一个日期,返回该日期的当月月初日期import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;import org.apache.hadoop.hive.ql.exec.UDF;/** * 根据输入的日期,返...

2018-04-21 17:38:04 5699

原创 UDF函数对输入的时间按不同维度年,月,日,时,分,秒的增减

   需求:给输入的时间字段,按照输入的维度类型,进行增减操作,比如2018-10-23 23:00:91 显示三周后的日期。import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Calendar;import java.util.Date;import org.apache....

2018-04-21 11:22:47 3167

原创 自定义UDF函数pom.xml文件配置

     自定义UDF函数,创建maven工程时pom.xml文件中配置,当然下面因为写的函数比较多,所以依赖整体偏多。 <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <project.build.targ...

2018-04-21 09:35:01 7223

原创 linux中文本批处理命令sed的使用

     sed源自英语"stream editor"的缩写,意思流编辑器。sed是linux常见的命令行程序。sed 用来把文档里面的文字经过一系列编辑命令转换为另一种格式输出。     进入当前目录/home/robot,vi aaa.txt ,内容如下:111111111111112222222222222233333333333333444444444444445555555555...

2018-04-14 14:11:56 3920

原创 文件查找命令find的使用

find 在linux开发中很常用的命令1.按照文件名称查找文件     find   /   -name a.txt 查找/根目录下文件名为a.txt的文件     find /home -name a.txt 查找/home及子目录中文件名为a.txt的文件     find  ./ -name  *.tar.gz 查找当前目录及子目录中所有后缀为.tar.gz的文件2.显示查询出符合条件的文...

2018-04-14 13:25:25 13610

原创 linux中字符串截取的八种方法

Linux 的字符串截取很常用,总结常用不同需求的几种方法假设有变量 var=http://www.aaa.com/123.htm1. # 号截取,删除左边字符,保留右边字符。echo ${var#*//}其中 var 是变量名,# 号是运算符,*// 表示从左边开始删除第一个 // 号及左边的所有字符即删除 http://结果是 :www.aaa.com/123.htm2. ## 号截取,删除左...

2018-04-12 17:03:18 32225 1

原创 shell编程中字符串的操作

         字符串是shell编程中最常用最有用的数据类型(shell编程中基本也就数字和字符串),字符串可以用单引号,也可以用双引号,也可以不用引号。关于三者的使用和区别请参考  1.获取字符串长度[robot@hadoop103 ~]$ string="abcd"[robot@hadoop103 ~]$ echo ${string} #同样用$去变量的值,打印abcd[robo...

2018-04-12 16:34:46 5532

原创 shell中单引号,双引号,反引号,不用引号的使用区别

 shell定义字符串变量时字符串可以用单引号,也可以用双引号,也可以不用引号,如果无特殊情况话,三者效果一样 1.单引号和双引号的区别   str=yalong  echo "The str is $str" >>  The str is yalong #双引号中的$str被其值yalong替换,即双引号允许变量替换。  echo 'The str is $str'  >&gt...

2018-04-12 00:32:21 8623

原创 shell编程之预定义变量和位置参数变量

 1.shell中变量的定义和使用           你可在任何编程语言中使用变量,但是在脚本编程(shell)中它们是没有类型的,简称弱类型编程语言,在这个变量中可以保含一个数字,一个字符串,一个单词等。你并不需要声明这个变量,它会在引用这个变量时创建它。        Linux Shell中的变量分为“系统变量”和“用户自定义变量”,可以通过set命令查看系统变量。用$输出变量      ...

2018-04-11 00:15:31 5303

原创 什么是shell和shell编程

1.什么是shell?      shell是你(用户)和Linux(或者更准确的说,是你和Linux内核)之间的接口程序。你在提示符下输入的每个命令都由shell先解释然后传给Linux内核。 说到底,Shell是用户与内核进行交互操作的一种接口,目前最流行的Shell称为bash Shell      Shell是解释执行的脚本语言,所谓脚本语言就是不用编译就可以直接执行的语言。在Shell中...

2018-04-10 22:58:02 10165

原创 linux中离线安装mysql5.6.27tar.gz安装包

       在linux系统里离线安装mysql,和在线安装的区别是,在线安装一般都是根据mysql的版本等值默认安装路径。而离线安装可以选择配置环境。但是在线安装相对更为简单,但是系统要处于联网状态。下面属于离线安装,在线安装请参考:linux系统mysql在线安装推荐下载Linux-Generic版本Source Code版本主要作用是为了让开发人员研究源码使用,自己编译对性能提升不明显...

2018-04-09 21:11:18 9566 3

阿里里巴巴企业数据安全中的数据脱敏实践.pdf

企业数据安全中的数据脱敏 阿里巴巴

2021-09-10

腾讯大数据安全体系架构与介绍.pdf

腾讯大数据安全体系介绍

2021-09-10

Python3.5官方文档中文版本chm格式

python3.5版本,官方文档中文版,已经 集成为chm格式,直接打开即可使用,更加方便好操作。免费下载吧

2018-09-06

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除