自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 【数据库】lateral view explode函数的坑

之前小白有写过一篇文章是高效的解析字符串,里面讲到过一个方法:lateral view explode最近小白发现,这个函数在使用时,还是有一些坑的,这里小白做一个总结。在正常解析一个有值的字符串时,用lateral view explode是完全ok的,但是,当遇到该字符串为空时,如果在使用该函数,就会导致该条记录消失。具体场景如下:sid filterlis...

2019-05-25 22:11:07 10366

原创 【数据库】HIVE SQL高效的字符串解析函数(lateral view、json_tuple)

用户行为的数据每天都是上亿的,那么如何高效将行为数据一个个解析出一目了然的字段呢?在小白最初工作时,用的就是最基础的get_json_object函数,没话说,真的好用,也好学习,将string类型中的数据一个对应一个的解析出来。话不多说,来个案例:{"otherlistcount":"0|0|0|0","regiontype":"5","regionid":"0"}将这个...

2019-05-25 22:09:46 6944

原创 【数据库】HIVE SQL函数之行转列

小白之前经常在工作中遇到需要行转列的情况,这次就总结一下,之前遇到过的各种情况,及在各种情况下的函数应用。场景:现有一个表,表示一个房型在未来60天的是否可订情况,由于房型的数据量是庞大的,可能达到几十亿,那么在展示时,就需要把可订酒店的可订天数展示为一个字段,这样就会缩小整个表的行数。id isbook time 698570 0 2019-...

2019-05-25 22:08:29 6755

原创 【数据库】nvl,coalesce,decode函数的区别与用法

最近小白在工作中遇到一种场景,当一个字段的值为空时,用0代替,之前小编都用case when来结局,现在发现,这个代码写起来真是很长,也很麻烦。后来用了coalesce函数来化解,但是最近发现这种函数还有两个,这里就做一个总结。NVL函数用法:1)select nvl(12,-999);2)select nvl(null,-999);当是1)这种情况时,返回的...

2019-05-25 22:08:00 6560 2

原创 【Python】Windows系统下Spyder安装python第三方包的两种方法

小白在学习python之初,经常遇到要安装python第三方包的问题,犹记得在安装xgboost时,那是安装了一下午呀,各种网上找教程,后来小白总结了一下,其实安装包无非就两种方式,今日做一个总结,以后再忘记时,就可以看自己的笔记啦~方法一:利用Spyder自身进行安装步骤:1)打开spyder--tools--open coomand prmot--进入编辑界面;2...

2019-05-25 22:07:38 36934 4

原创 【数据库】HIVE SQL:用连接操作替代子查询

由于HQL和SQL很像,很多功能也通用,所有,有些小伙伴直接把SQL的方法套用到HQL上,经常遇到各种报错。这次,小白又发现HQL不支持子查询操作,那么如何解决这种需求呢?如下:想把最大年龄的人取出来 这里如下语句无论是用=或者是in都不支持select * from table where age =(in) (select max(age) from ta...

2019-05-20 09:31:10 6345 1

原创 【数据库】HIVE SQL如何返回周or周几

在工作中,经常会遇到在统计历史数据时,需要按周或者按月来展示,或者今年按照同比去年的同月、同周的数据,但是在hive中没有直接返回周几的函数,只有返回是一年当中的第几周,那么返回周的函数是什么?又如何返回一周中的周几呢?1.返回一年中的第几周即可以是时分秒也可以直接是日期select weekofyear('2011-12-08 10:03:01') as weeks...

2019-05-20 09:30:59 16807

原创 【Python】Python实现非正太分布的异常值检测

工作中,我们经常会遇到数据异常,比如说浏览量突增猛降,交易量突增猛降,但是这些数据又不是符合正太分布的,如果用几倍西格玛就不合适,那么我们如何来判断这些变化是否在合理的范围呢? 小白查阅一些资料后,发现可以用箱形图,具体描述如下: 箱形图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。箱...

2019-05-20 09:30:46 7625

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除