春风化雨~_~-CSDN博客

原创 hivesql中使用join 关联表时where 和 on、join 的执行先后顺序

环境：hive 0.13.1版本select t1.cust_pty_no,t2.amtfrom a t1left join b t2on t1.cust_pty_no = t2.cust_pty_no and t2.busi_date='2020-04-17'where t1.busi_date='2020-04-17'使用expalin 查看执行计划如下：看红色圈住部分，n...

2020-05-05 16:07:16 15906 15

原创 python 中节假日（工作日）判断

python 中节假日（工作日）判断安装包pip install chinesecalendar对以下日期进行节假日以及周末判断2021-04-03 周六清明节2020-04-10 周六2020-04-25 周日五一调休2020-04-09 工作日from chinese_calendar import is_workday, is_holiday,get_holiday_detail,is_in_lieuapril_last = datetime.date(2021, 4,

2021-04-16 17:32:00 7617 1

原创如何使用python 给PDF生成目录

如何使用python 给PDF生成目录主要步骤：步骤1.准备目录的txt,如果PDF是图片无法复制出来，可以使用qq图文识别提取目录内容。目录txt 格式：关于QQ图片文字提取：（1）利用qq聊天框中的屏幕识图（2）转为在线文档（3）复制目录内容生成一个txt 文件把页面前面的点去掉步骤2执行python 脚本生成目录，会生成一个原文件名-new的PDF文件import reimport sysfrom distutils.version import LooseVe

2021-01-20 10:17:33 2945

原创在已有的hive表新增一列，但是已有分区数据显示为null

在已有的hive表新增一列，然后对新增列之前的分区写入数据，hive查询该列全是null，但presto查询是有数据的一、造成hive查询为null的原因是？总结：一、造成hive查询为null的原因是？原因是修改Hive分区表结构以后，元数据库中的SDS中该表对应的CD_ID会改变，但是该表分区下面对应的CD_ID还是原来表的CD_ID。SDS表主要保存文件存储的基本信息，如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。参考https://blog.csdn.net/gxd520

2020-12-28 17:03:47 853

原创 pandas 创建dataframe的几种方法

创建dataframe --方法一import numpy as npimport pandas as pddata_array =np.random.normal(0, 1, (10, 5))data_arrayarray([[ 1.22424093, 1.78311088, 0.21918891, 0.53118118, 0.51973348], [-1.4...

2019-11-03 21:01:28 504

原创 shell脚本执行报错 invalid option

执行shell 脚本报错信息如下：解决办法步骤如下：用vim 打开脚本，发现脚本格式为doc ，则需要将脚本格式转为unix使用vim 修改格式:set fileformat=unix3. 在保存退出：wq就完美解决啦...

2019-10-31 17:45:47 8250 1

原创开窗函数 row_number()

找出一个表中重复出现的记录例如 b表中是客户的购物信息，找出购物两次或者两次以上的客户select * from ( select name ,row_number() over(partition by name )rn --开窗函数，组内排序 from shop ) a where a.rn>1 --出现次数大于1的客户;执行结果：...

2019-10-23 11:22:19 549

原创 MySQL中的Group By是否允许SELECT非聚合列的总结

在SQL92以及更早的SQL标准中不允许查询除了GROUP BY之外的非聚合的列，例如如下查询即非法：select o.custid,c.name max(o.payment) from order as o ,customers as cwhere o.custid=c.custidgroup by o.custid因为c.name没有在group中，因此解决方案是删除c.nam...

2019-10-23 09:24:57 694

原创 SQL中NULL 值！= NULL

sql 中的null 值是不等于null的，当你在使用sql左连接查询的时候（类似连接），即使途中这两条记录的name,year,month 是一致的（包含null）但在sql 筛选出来的结果是认为不一致的tips： sql 中:null ！=null --> true‘222’ != null --> true因此在做逻辑运算的时候，如果有可能出现空值，需要将空值替换成...

2019-10-23 09:17:11 9122 1

原创 hivesql -行转列 lateral view explode

拿到一个需求：需要找出50个客户使得用户画像标签尽可能丰富（有值的）tips:用户画像标签有500多个分散在30多个表中，即一个用户有500多个标签属性解决办法：例如有三张表a1,a2,a3，每张表的字段不同（但是客户数是一样的id）select * from a1 left join a2 on a1.id= a2.id left join a3 on a3.id=a1.id结果如下...

2019-10-22 18:05:40 697

原创 SQL

hive sql --with as踩过的坑with as 与insert into 共用的时候要注意顺序问题

2019-09-29 14:52:52 223

转载 RDDDatasetDataFrame互转1

RDD/Dataset/DataFrame互转1.RDD -> Datasetval ds = rdd.toDS()2.RDD -> DataFrameval df = spark.read.json(rdd)3.Dataset -> RDDval rdd = ds.rdd4.Dataset -> DataFrameval df = ds.toDF()...

2018-11-24 23:15:43 112

weixin_42903419的博客