你锋哥真的强-CSDN博客

原创 shell批量去除后缀

path="/home/work/yxf/wbj/datas"for i in `ls /home/work/yxf/wbj/datas`do newName=${i%.*} #echo $newName mv $path/$i $path/$newNamedonefor i in `ls | grep .xlsx`; do mv $i `echo "$i" | awk -F '.xlsx' '{print $1}'`;done

2020-11-02 10:06:16 666

转载在left join语句中，左表过滤必须放where条件中，右表过滤必须放on条件中，这样结果才能不多不少，刚刚好。

转载自:https://blog.csdn.net/cainiao1923/article/details/103594153通过上面的问题现象和分析，可以得出了结论：在left join语句中，左表过滤必须放where条件中，右表过滤必须放on条件中，这样结果才能不多不少，刚刚好。SQL 看似简单，其实也有很多细节原理在里面，一个小小的混淆就会造成结果与预期不符，所以平时要注意这些细节原理，避免关键时候出错。...

2020-10-22 17:40:38 926

原创正则匹配所有空格不包括换行

[^\S\r\n]+

2020-09-10 20:28:43 4151

原创 python根据excel生成Hive ddl sql 和 MySQL 表语句

Excel：中文表名称企业基本信息英文表名称 enterprise_base_info 备注说明接口单元文件命名接口数据文件名校验文件名字段序号逻辑名称物理名称 1 企业名称 enterprise_name 2 营业执照类型 license_type 3...

2020-04-15 16:23:51 1143

原创 Hive导出数据到本地

hive -S -e "select * from default.ts_plc_tot_w_kpi_people_prefertreatment_d where pday='20191218' " >> /home/work/yxf/a.txt

2019-12-19 17:15:29 253

转载 Hive创建表时添加中文注释后乱码问题

https://blog.csdn.net/leen0304/article/details/80534385

2019-12-10 11:40:05 192

原创正则表达式去除中文以及括号

需求：需要在类似编号(编号)，名称这样的字段加上 comment 、引号和逗号测试工具： Notepad++查找目标：([^\x00-\xff(|)]+$[^\x00-\xff(|)]+$|[^\x00-\xff(|)]+)替换目标：comment '$1',...

2019-11-21 11:00:25 1291

原创 Hive月份计算

select concat(split(months_between('2019-03-31','2018-02-01')/12,"\\.")[0],"年零",round(months_between('2019-03-31','2018-02-15')%12,1),"个月");-- 1年零1.5个月select concat(split(months_between('2019-03-3...

2019-11-13 10:42:23 2304

原创 java生成范围内随机数

int max = 10; int min = 8; Random random = new Random(); int i = random.nextInt(max-min+1)+min;

2019-11-11 15:59:57 189

转载 windows下安装ElasticSearch的Head插件

https://www.cnblogs.com/hts-technology/p/8477258.html

2019-11-07 14:56:24 141

转载 hive批量建表

https://blog.csdn.net/weixin_42496757/article/details/88744077

2019-10-26 00:17:36 1603

原创 shell批量删除hive表

hive -e "use default;show tables; " > tables.txtcat tables.txt|while read eachlinedo echo "drop table if exists default.$eachline;" >> Droptables.hqldonehive -f Droptables.hql...

2019-10-25 23:27:48 334

转载 idea设置方法注释 /** enter方式

https://www.jianshu.com/p/2b17c3879879

2019-10-24 15:01:40 3906

原创 Java Python调用天地地理编码api返回经纬度

import requestsimport jsonr = requests.get(url='http://api.tianditu.gov.cn/geocoder?ds=' '{"keyWord":"重庆市"}&tk=这里是自己申请的tk')print(r.json())print(r.json()["location"]["...

2019-10-23 17:34:22 585

转载 Python正则表达式做文本预处理，去掉特殊符号

#!/usr/bin/python# encoding: UTF-8import re # make English text cleandef clean_en_text(text): # keep English, digital and space comp = re.compile('[^A-Z^a-z^0-9^ ]') return comp.sub(...

2019-10-20 14:52:10 1124

原创 HIVE实现分页写法

select t.* from (select * ,(row_number() over(order by id)) rn from tc_plc_gbt_tq_org ) t where t.rn between 2 and 3;

2019-10-17 11:24:21 5821

原创正则占位符使用

#需要将num0m,num10m,这种替换为num0f,num10f#测试用的notepad++#查找目标：num(\d+)m#替换为：num$1f

2019-10-15 09:46:04 1229

原创 mysql not exists查找A表某列的数据不存在B表

people表的某些id在org表里面找不到，需要找出来是people表的哪些org_id1、not exists写法SELECT * FROM people t1 WHERE NOT EXISTS (SELECT 1 FROM org t2 WHERE t1.org_id = t2.org_id)2、not in写法SELECT * FROM tq_data0904.tb_pp...

2019-10-14 10:27:49 656

转载如何利用正则表达式中的查找替换在前面添加字符

如何将 001章修改为第001章，并批量执行。利用notepad++ 打开一个文本文件。里面的章节是这样的前面没有第字。现在开始查找这种格式的文字查找格式：(\d{1,})章//加小括号的含义是以后引用要用到，\d匹配一个数字，{0,}是指重复1次以上。替换格式：第$1章// $1 的含义是引用第一个小括号，如何有第二个小括号就是$...

2019-10-09 16:44:23 2765

原创 Hive正则匹配省市区

StringPatten="[^省]+省[^市]+市+[^区]+区"select regexp_extract('重庆市合川区隆兴镇峨眉村X组XX号','[^市]+市[^区]+区',0)

2019-09-09 10:37:22 2591

转载正则表达式匹配空行

转载自：https://www.cnblogs.com/iLoveMyD/p/3508276.html测试所用的编辑器:notepad++^(\s*)\r\n根据文档格式(windows, mac, linux行尾符)不同将其中的\r\n替换成不同行尾符windows: ^(\s*)\r\nlinux: ^(\s*)\nmac: ^(\s*)\n (mac 也是一种类l...

2019-09-06 16:19:07 3056

转载【hive 日期函数】Hive常用日期函数整理

转载自：https://blog.csdn.net/u013421629/article/details/80450047

2019-08-13 11:45:42 274

原创 python拿pgsql timestamp 值解析出来变pylong类型

参考地址：https://blog.csdn.net/zhanglu1236789/article/details/69525030pgsql企业基础信息开业日期存的是2016-04-05 08:00:00 timestamp without time zone 类型由于需要做计算，处理如下kyrq_long = item.get("kyrq", "")timeArray = t...

2019-08-09 09:40:35 761

原创 scala获取去年、前年

/* 获取去年 */def beforeYear():(String)= { val cals: Calendar = Calendar.getInstance(); cals.add(Calendar.YEAR, -1); var yearstrs: String = ""; yearstrs = cals.get(Calendar.YEAR) + ""; ...

2019-08-05 16:57:31 648

原创国标行业分类sql

搜到了行业分类代码 2017 最新版创建sql语句https://blog.csdn.net/hr541659660/article/details/78322050/copy ( select t.fid,t.firstType ,concat('{"',t.secondType,'":') ,concat('["',code_array,'"]},') fr...

2019-08-05 16:53:24 4726 2

转载 linux Ubuntu 16.04安装 postgresql

转载自 https://www.cnblogs.com/SpadeA/p/10070879.html安装步骤： 1，运行sudo apt-get update --这个用来查找数据源 2 ，运行 apt install postgresql --开始安装数据库遇到Do you want to continue? [Y/n] --...

2019-07-19 09:41:46 531

原创一键安装mysql shell脚本

#!/bin/bash#输入mysql压缩文件地址fileName=$1;-f是判断文件是否存在if [ -f ${fileName} ]then #解压mysql tar -zxvf ${fileName}; echo 'mysql解压完成，正在删除/usr/local/mysql文件夹'; rm -rf /usr/local/mysql; ...

2019-07-17 16:16:12 507

原创 spark overwrite分区覆盖导致全表覆盖问题

比如我们目前有两个分区 2019-03-22 和 2019-03-23 两个分区，现在我们使用 saveAsTable 想覆盖其中一天的分区，结果却是将整个所有分区遮盖了。重建了整个目录，这明显不是我们想要的到的结果。试过下图还是不行set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=no...

2019-06-26 14:20:49 7311 2

原创 spark首次写入Hive orc表报错

The format of the existing table project_bsc_dhr.bloc_views isHiveFileFormat. It doesn't match the specified formatOrcFileFormat.;new_df.write.mode(SaveMode.Append).format("orc").partitionBy("nd"...

2019-06-24 11:23:06 1883

原创 spark scala dataframe 保留2位小数

df = df.selectExpr("round(money,2) as money" ,"created_ts","updated_ts");df = df.selectExpr("cast(money as decimal(20,2)) as money" ,"created_ts","updated_ts");

2019-06-24 11:04:24 7750

转载 spark实现获取上个月1号及最后一天

转载自：https://blog.csdn.net/java_zzzz/article/details/82987661最近在分析的时候要分析周及月的数据那么月的话一开始我是直接获取当月的1号及最后一天但是后来发现数据不太对因为这个样子跑的话会存在最后一天数据丢失（和本身的数据有关）所以这里就要写获取上个月的1号及最后一天有不对的请指正：import java....

2019-06-13 17:18:48 2290

原创 scala获取上个月最后一天日期

val now: Date = new Date(); val dateFormat: SimpleDateFormat = new SimpleDateFormat("yyyy-MM-dd"); val dateNow = dateFormat.format(now); val day =dateNow.substring(0,4)+dateNow.substring(...

2019-06-11 15:09:21 2130

原创 Linux根据某列字段去重

-t : 指定分隔符-k: 指定从第几列开始去重sort -t $',' -k3,3 -u file1.txt >> file_new.txt

2019-06-11 14:04:45 4482

原创 Linux shell脚本批量给没有后缀的文件添加后缀

for i in *domv $i $i".csv"done

2019-05-23 15:19:57 1965

原创 Java日期转换

package ImoocWeb;import java.text.ParseException;import java.text.SimpleDateFormat;import java.util.Date;import java.util.Locale;/** * 日期转换 * 10/Nov/2016:00:01:02 +0800 ==> 2016-11-10 0...

2019-05-13 23:14:12 199

原创 Scala日期转换SimpleDateFormat

将 dd/MMM/yyyy:HH:mm:ss Z格式转换为yyyy-MM-dd HH:mm:sse.g. 10/Nov/2016:00:01:02 +8000 ==>2016-11-10 00:01:02package ImoocWebimport java.util.Dateimport java.text.SimpleDateFormatimport ja...

2019-05-13 23:05:41 3135

原创 Spark性能优化-------troubleshooting之解决算子函数返回NULL导致的问题

大家可以看到，在有些算子函数里面，是需要我们有一个返回值的。但是，有时候，我们可能对某些值，就是不想有什么返回值。我们如果直接返回NULL的话，那么可以不幸的告诉大家，是不行的，会报错的。Scala.Math(NULL)，异常如果碰到你的确是对于某些值，不想要有返回值的话，有一个解决的办法：1、在返回的时候，返回一些特殊的值，不要返回null，比如“-999”2、在通过算子获取到了一个RDD之后，...

2018-03-05 15:36:13 205

原创 Spark性能优化----troubleshooting之解决各种序列化导致的报错

你会看到什么样的序列化导致的报错？用client模式去提交spark作业，观察本地打印出来的log。如果出现了类似于Serializable、Serialize等等字眼，报错的log，那么恭喜大家，就碰到了序列化问题导致的报错。虽然是报错，但是序列化报错，应该是属于比较简单的了，很好处理。序列化报错要注意的三个点：1、你的算子函数里面，如果使用到了外部的自定义类型的变量，那么此时，就要求你的自定义...

2018-03-05 14:54:29 201

原创 Spark性能优化------troubleshooting之解决JVM GC导致的shuffle文件拉取失败

有时会出现的一种情况，非常普遍，在spark的作业中；shuffle file not found。（spark作业中，非常非常常见的）而且，有的时候，它是偶尔才会出现的一种情况。有的时候，出现这种情况以后，会重新去提交stage、task。重新执行一遍，发现就好了。没有这种错误了。log怎么看？用client模式去提交你的spark作业。比如standalone client；yarn clie...

2018-03-05 13:37:22 294

原创 Spark性能调优----troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

map端的task是不断的输出数据的，数据量可能是很大的。但是，其实reduce端的task，并不是等到map端task将属于自己的那份数据全部写入磁盘文件之后，再去拉取的。map端写一点数据，reduce端task就会拉取一小部分数据，立即进行后面的聚合、算子函数的应用。每次reduece能够拉取多少数据，就由buffer来决定。因为拉取过来的数据，都是先放在buffer中的。然后才用后面的ex...

2018-03-05 13:16:46 261

空空如也

空空如也