自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 hivesql中使用join 关联表时where 和 on、join 的执行先后顺序

环境:hive 0.13.1版本select t1.cust_pty_no,t2.amtfrom a t1left join b t2on t1.cust_pty_no = t2.cust_pty_no and t2.busi_date='2020-04-17'where t1.busi_date='2020-04-17'使用expalin 查看执行计划如下:看红色圈住部分,n...

2020-05-05 16:07:16 15906 15

原创 python 中节假日(工作日)判断

python 中节假日(工作日)判断安装包pip install chinesecalendar对以下日期进行节假日以及周末判断2021-04-03 周六 清明节2020-04-10 周六2020-04-25 周日 五一调休2020-04-09 工作日from chinese_calendar import is_workday, is_holiday,get_holiday_detail,is_in_lieuapril_last = datetime.date(2021, 4,

2021-04-16 17:32:00 7617 1

原创 如何使用python 给PDF生成目录

如何使用python 给PDF生成目录主要步骤:步骤1.准备目录的txt,如果PDF是图片无法复制出来,可以使用qq图文识别提取目录内容。目录txt 格式:关于QQ图片文字提取:(1)利用qq聊天框中的屏幕识图(2)转为在线文档(3)复制目录内容生成一个txt 文件把页面前面的点去掉步骤2执行python 脚本生成目录,会生成一个原文件名-new的PDF文件import reimport sysfrom distutils.version import LooseVe

2021-01-20 10:17:33 2945

原创 在已有的hive表新增一列,但是已有分区数据显示为null

在已有的hive表新增一列,然后对新增列之前的分区写入数据,hive查询该列全是null,但presto查询是有数据的一、造成hive查询为null的原因是?总结:一、造成hive查询为null的原因是?原因是修改Hive分区表结构以后,元数据库中的SDS中该表对应的CD_ID会改变,但是该表分区下面对应的CD_ID还是原来表的CD_ID。SDS表主要保存文件存储的基本信息,如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。参考https://blog.csdn.net/gxd520

2020-12-28 17:03:47 853

原创 pandas 创建dataframe的几种方法

创建dataframe --方法一import numpy as npimport pandas as pddata_array =np.random.normal(0, 1, (10, 5))data_arrayarray([[ 1.22424093, 1.78311088, 0.21918891, 0.53118118, 0.51973348], [-1.4...

2019-11-03 21:01:28 504

原创 shell脚本执行报错 invalid option

执行shell 脚本报错信息如下:解决办法步骤如下:用vim 打开脚本 ,发现脚本格式为doc ,则需要将脚本格式转为unix使用vim 修改格式:set fileformat=unix3. 在保存退出:wq就完美解决啦...

2019-10-31 17:45:47 8250 1

原创 开窗函数 row_number()

找出一个表中重复出现的记录例如 b表中是客户的购物信息,找出购物两次或者两次以上的客户select * from ( select name ,row_number() over(partition by name )rn --开窗函数,组内排序 from shop ) a where a.rn>1 --出现次数大于1的客户;执行结果:...

2019-10-23 11:22:19 549

原创 MySQL中的Group By是否允许SELECT非聚合列的总结

在SQL92以及更早的SQL标准中不允许查询除了GROUP BY之外的非聚合的列,例如如下查询即非法:select o.custid,c.name max(o.payment) from order as o ,customers as cwhere o.custid=c.custidgroup by o.custid因为c.name没有在group中,因此解决方案是删除c.nam...

2019-10-23 09:24:57 694

原创 SQL中NULL 值!= NULL

sql 中的null 值是不等于null的,当你在使用sql左连接查询的时候(类似连接),即使途中这两条记录的name,year,month 是一致的(包含null)但在sql 筛选出来的结果是认为不一致的tips: sql 中:null !=null --> true‘222’ != null --> true因此在做逻辑运算的时候,如果有可能出现空值,需要将空值替换成...

2019-10-23 09:17:11 9122 1

原创 hivesql -行转列 lateral view explode

拿到一个需求:需要找出50个客户使得用户画像标签尽可能丰富(有值的)tips:用户画像标签有500多个分散在30多个表中,即一个用户有500多个标签属性解决办法:例如有三张表a1,a2,a3,每张表的字段不同(但是客户数是一样的id)select * from a1 left join a2 on a1.id= a2.id left join a3 on a3.id=a1.id结果如下...

2019-10-22 18:05:40 697

原创 SQL

hive sql --with as踩过的坑with as 与insert into 共用的时候要注意顺序问题

2019-09-29 14:52:52 223

转载 RDDDatasetDataFrame互转1

RDD/Dataset/DataFrame互转1.RDD -> Datasetval ds = rdd.toDS()2.RDD -> DataFrameval df = spark.read.json(rdd)3.Dataset -> RDDval rdd = ds.rdd4.Dataset -> DataFrameval df = ds.toDF()...

2018-11-24 23:15:43 112

python与数据挖掘

python数据挖掘与分析,仅供大家参考学习,希望对大家有帮助

2018-09-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除