自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 shell批量去除后缀

path="/home/work/yxf/wbj/datas"for i in `ls /home/work/yxf/wbj/datas`do newName=${i%.*} #echo $newName mv $path/$i $path/$newNamedonefor i in `ls | grep .xlsx`; do mv $i `echo "$i" | awk -F '.xlsx' '{print $1}'`;done

2020-11-02 10:06:16 590

转载 在left join语句中,左表过滤必须放where条件中,右表过滤必须放on条件中,这样结果才能不多不少,刚刚好。

转载自:https://blog.csdn.net/cainiao1923/article/details/103594153通过上面的问题现象和分析,可以得出了结论:在left join语句中,左表过滤必须放where条件中,右表过滤必须放on条件中,这样结果才能不多不少,刚刚好。SQL 看似简单,其实也有很多细节原理在里面,一个小小的混淆就会造成结果与预期不符,所以平时要注意这些细节原理,避免关键时候出错。...

2020-10-22 17:40:38 863

原创 正则匹配所有空格不包括换行

[^\S\r\n]+

2020-09-10 20:28:43 3795

原创 python根据excel生成Hive ddl sql 和 MySQL 表语句

Excel:中文表名称 企业基本信息 英文表名称 enterprise_base_info 备注说明 接口单元文件命名 接口数据文件名 校验文件名 字段序号 逻辑名称 物理名称 1 企业名称 enterprise_name 2 营业执照类型 license_type 3...

2020-04-15 16:23:51 1004

原创 Hive导出数据到本地

hive -S -e "select * from default.ts_plc_tot_w_kpi_people_prefertreatment_d where pday='20191218' " >> /home/work/yxf/a.txt

2019-12-19 17:15:29 220

转载 Hive创建表时添加中文注释后乱码问题

https://blog.csdn.net/leen0304/article/details/80534385

2019-12-10 11:40:05 151

原创 正则表达式去除中文以及括号

需求:需要在类似编号(编号),名称 这样的字段加上 comment 、引号和逗号测试工具 : Notepad++查找目标 :([^\x00-\xff(|)]+\([^\x00-\xff(|)]+\)|[^\x00-\xff(|)]+)替换目标:comment '$1',...

2019-11-21 11:00:25 1198

原创 Hive月份计算

select concat(split(months_between('2019-03-31','2018-02-01')/12,"\\.")[0],"年零",round(months_between('2019-03-31','2018-02-15')%12,1),"个月");-- 1年零1.5个月select concat(split(months_between('2019-03-3...

2019-11-13 10:42:23 2230

原创 java生成范围内随机数

int max = 10; int min = 8; Random random = new Random(); int i = random.nextInt(max-min+1)+min;

2019-11-11 15:59:57 149

转载 windows下安装ElasticSearch的Head插件

https://www.cnblogs.com/hts-technology/p/8477258.html

2019-11-07 14:56:24 98

转载 hive批量建表

https://blog.csdn.net/weixin_42496757/article/details/88744077

2019-10-26 00:17:36 1533

原创 shell批量删除hive表

hive -e "use default;show tables; " > tables.txtcat tables.txt|while read eachlinedo echo "drop table if exists default.$eachline;" >> Droptables.hqldonehive -f Droptables.hql...

2019-10-25 23:27:48 292

转载 idea设置方法注释 /** enter方式

https://www.jianshu.com/p/2b17c3879879

2019-10-24 15:01:40 3611

原创 Java Python调用天地地理编码api返回经纬度

import requestsimport jsonr = requests.get(url='http://api.tianditu.gov.cn/geocoder?ds=' '{"keyWord":"重庆市"}&tk=这里是自己申请的tk')print(r.json())print(r.json()["location"]["...

2019-10-23 17:34:22 489

转载 Python正则表达式做文本预处理,去掉特殊符号

#!/usr/bin/python# encoding: UTF-8import re # make English text cleandef clean_en_text(text): # keep English, digital and space comp = re.compile('[^A-Z^a-z^0-9^ ]') return comp.sub(...

2019-10-20 14:52:10 1062

原创 HIVE实现分页写法

select t.* from (select * ,(row_number() over(order by id)) rn from tc_plc_gbt_tq_org ) t where t.rn between 2 and 3;

2019-10-17 11:24:21 5744

原创 正则占位符使用

#需要将num0m,num10m,这种替换为num0f,num10f#测试用的notepad++#查找目标:num(\d+)m#替换为:num$1f

2019-10-15 09:46:04 1162

原创 mysql not exists查找A表某列的数据不存在B表

people表的某些id在org表里面找不到,需要找出来是people表的哪些org_id1、not exists写法SELECT * FROM people t1 WHERE NOT EXISTS (SELECT 1 FROM org t2 WHERE t1.org_id = t2.org_id)2、not in写法SELECT * FROM tq_data0904.tb_pp...

2019-10-14 10:27:49 604

转载 如何利用正则表达式中的查找替换在前面添加字符

如何将 001章修改为 第001章,并批量执行。利用notepad++ 打开一个文本文件。里面的章节是这样的前面没有 第字。现在开始查找这种格式的文字查找格式:(\d{1,})章//加小括号的含义是以后引用要用到,\d匹配一个数字,{0,}是指重复1次以上。替换格式:第$1章// $1 的含义是引用第一个小括号,如何有第二个小括号就是$...

2019-10-09 16:44:23 2361

原创 Hive正则匹配省市区

StringPatten="[^省]+省[^市]+市+[^区]+区"select regexp_extract('重庆市合川区隆兴镇峨眉村X组XX号','[^市]+市[^区]+区',0)

2019-09-09 10:37:22 2424

转载 正则表达式匹配空行

转载自:https://www.cnblogs.com/iLoveMyD/p/3508276.html测试所用的编辑器:notepad++^(\s*)\r\n根据文档格式(windows, mac, linux行尾符)不同 将其中的\r\n替换成不同行尾符windows: ^(\s*)\r\nlinux: ^(\s*)\nmac: ^(\s*)\n (mac 也是一种类l...

2019-09-06 16:19:07 2856

转载 【hive 日期函数】Hive常用日期函数整理

转载自:https://blog.csdn.net/u013421629/article/details/80450047

2019-08-13 11:45:42 225

原创 python拿pgsql timestamp 值解析出来变pylong类型

参考地址:https://blog.csdn.net/zhanglu1236789/article/details/69525030pgsql企业基础信息 开业日期存的是2016-04-05 08:00:00 timestamp without time zone 类型由于需要做计算,处理如下kyrq_long = item.get("kyrq", "")timeArray = t...

2019-08-09 09:40:35 666

原创 scala获取去年、前年

/* 获取去年 */def beforeYear():(String)= { val cals: Calendar = Calendar.getInstance(); cals.add(Calendar.YEAR, -1); var yearstrs: String = ""; yearstrs = cals.get(Calendar.YEAR) + ""; ...

2019-08-05 16:57:31 579

原创 国标行业分类sql

搜到了行业分类代码 2017 最新版 创建sql语句https://blog.csdn.net/hr541659660/article/details/78322050/copy ( select t.fid,t.firstType ,concat('{"',t.secondType,'":') ,concat('["',code_array,'"]},') fr...

2019-08-05 16:53:24 4489 2

转载 linux Ubuntu 16.04安装 postgresql

转载自 https://www.cnblogs.com/SpadeA/p/10070879.html安装步骤: 1,运行sudo apt-get update --这个用来查找数据源 2 ,运行 apt install postgresql --开始安装数据库 遇到Do you want to continue? [Y/n] --...

2019-07-19 09:41:46 503

原创 一键安装mysql shell脚本

#!/bin/bash#输入mysql压缩文件地址fileName=$1;-f是判断文件是否存在if [ -f ${fileName} ]then #解压mysql tar -zxvf ${fileName}; echo 'mysql解压完成,正在删除/usr/local/mysql文件夹'; rm -rf /usr/local/mysql; ...

2019-07-17 16:16:12 470

原创 spark overwrite分区覆盖导致全表覆盖问题

比如我们目前有两个分区 2019-03-22 和 2019-03-23 两个分区,现在我们使用 saveAsTable 想覆盖其中一天的分区,结果却是将整个所有分区遮盖了。重建了整个目录,这明显不是我们想要的到的结果。试过下图还是不行set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=no...

2019-06-26 14:20:49 6996 2

原创 spark首次写入Hive orc表报错

The format of the existing table project_bsc_dhr.bloc_views isHiveFileFormat. It doesn't match the specified formatOrcFileFormat.;new_df.write.mode(SaveMode.Append).format("orc").partitionBy("nd"...

2019-06-24 11:23:06 1816

原创 spark scala dataframe 保留2位小数

df = df.selectExpr("round(money,2) as money" ,"created_ts","updated_ts");df = df.selectExpr("cast(money as decimal(20,2)) as money" ,"created_ts","updated_ts");

2019-06-24 11:04:24 7490

转载 spark实现获取上个月1号及最后一天

转载自:https://blog.csdn.net/java_zzzz/article/details/82987661最近在分析的时候要分析周及月的数据那么月的话 一开始我是直接获取当月的1号及最后一天但是后来发现数据不太对因为这个样子跑的话 会存在最后一天数据丢失(和本身的数据有关)所以这里就要写 获取上个月的1号及最后一天有不对的请指正:import java....

2019-06-13 17:18:48 2041

原创 scala获取上个月最后一天日期

val now: Date = new Date(); val dateFormat: SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd"); val dateNow = dateFormat.format(now); val day =dateNow.substring(0,4)+dateNow.substring(...

2019-06-11 15:09:21 2049

原创 Linux根据某列字段去重

-t : 指定分隔符-k: 指定从第几列开始去重sort -t $',' -k3,3 -u file1.txt >> file_new.txt

2019-06-11 14:04:45 4390

原创 Linux shell脚本批量给没有后缀的文件添加后缀

for i in *domv $i $i".csv"done

2019-05-23 15:19:57 1881

原创 Java日期转换

package ImoocWeb;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Locale;/** * 日期转换 * 10/Nov/2016:00:01:02 +0800 ==> 2016-11-10 0...

2019-05-13 23:14:12 167

原创 Scala日期转换SimpleDateFormat

将 dd/MMM/yyyy:HH:mm:ss Z格式转换为yyyy-MM-dd HH:mm:sse.g. 10/Nov/2016:00:01:02 +8000 ==>2016-11-10 00:01:02package ImoocWebimport java.util.Dateimport java.text.SimpleDateFormatimport ja...

2019-05-13 23:05:41 3061

原创 Spark性能优化-------troubleshooting之解决算子函数返回NULL导致的问题

大家可以看到,在有些算子函数里面,是需要我们有一个返回值的。但是,有时候,我们可能对某些值,就是不想有什么返回值。我们如果直接返回NULL的话,那么可以不幸的告诉大家,是不行的,会报错的。Scala.Math(NULL),异常如果碰到你的确是对于某些值,不想要有返回值的话,有一个解决的办法:1、在返回的时候,返回一些特殊的值,不要返回null,比如“-999”2、在通过算子获取到了一个RDD之后,...

2018-03-05 15:36:13 164

原创 Spark性能优化----troubleshooting之解决各种序列化导致的报错

你会看到什么样的序列化导致的报错?用client模式去提交spark作业,观察本地打印出来的log。如果出现了类似于Serializable、Serialize等等字眼,报错的log,那么恭喜大家,就碰到了序列化问题导致的报错。虽然是报错,但是序列化报错,应该是属于比较简单的了,很好处理。序列化报错要注意的三个点:1、你的算子函数里面,如果使用到了外部的自定义类型的变量,那么此时,就要求你的自定义...

2018-03-05 14:54:29 161

原创 Spark性能优化------troubleshooting之解决JVM GC导致的shuffle文件拉取失败

有时会出现的一种情况,非常普遍,在spark的作业中;shuffle file not found。(spark作业中,非常非常常见的)而且,有的时候,它是偶尔才会出现的一种情况。有的时候,出现这种情况以后,会重新去提交stage、task。重新执行一遍,发现就好了。没有这种错误了。log怎么看?用client模式去提交你的spark作业。比如standalone client;yarn clie...

2018-03-05 13:37:22 251

原创 Spark性能调优----troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

map端的task是不断的输出数据的,数据量可能是很大的。但是,其实reduce端的task,并不是等到map端task将属于自己的那份数据全部写入磁盘文件之后,再去拉取的。map端写一点数据,reduce端task就会拉取一小部分数据,立即进行后面的聚合、算子函数的应用。每次reduece能够拉取多少数据,就由buffer来决定。因为拉取过来的数据,都是先放在buffer中的。然后才用后面的ex...

2018-03-05 13:16:46 207

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除