自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

转载 用hive写一个获取本日期的季度初的sql

由于项目需要获取(本季度的的发生额总和)/(本季度经历的天数)的数据(还有月均,年均的数据)。判断季度的时候是一个难点,开始的时候写了一堆case when 来判断月份,后来写着写着发现,这样也太笨了。于是就开始想办法。突然灵机一动,一个季度都是以3个月份为一个体的。何不先算出本日是第几季度,然后再乘以3就是季度初啊。因为3月份除以3就等于1了.必须除一个比3大的数,而且月份...

2017-11-01 10:03:00 2628

转载 python日期函数udf-程序分享

基于python函数的udf日期处理函数1、基于最近在学习python,就是试试用python进行一下的日期处理udf函数的输出,亲测可以上传去到hive中使用。后面开始学习使用python爬虫抓取黄色网页,和试试骗一下阅读量(笑)。最后,再去搞搞算法和机器学习。突然觉得自己搞得挺杂的。没办法,谁叫咱是码农呢?2、使用办法-输入什么参数这个py文件中包括一堆日期的计算函数。...

2017-10-31 19:09:00 273

转载 UDF函数:客户连续三天经营判断方法的趣味实现

最近有同事问了我一个关于数据处理的面试题,“如何在一张业务数据表中判断客户是否连续经营了三天”。当时给出的答案是如果是增量计算的话,只要每天把前三天的数据找出来,按客户,按日期GROUP BY一下,然后再看看COUNT是否等于3就行了。如果要考虑处理历史数据的话,就可能需要建一个每天对应前三天的临时表,再用业务表去关联,形成笛卡尔再去判断。刚好最近在学习使用python写udf,于是...

2017-10-29 21:28:00 191

转载 从零起步学python计划及感想

  从纯传统bi转型过来的技术顾问,比较有优势的是对业务的熟悉,对数据有敏感度,熟悉数据模型。但是长年累月基本都是用sql处理问题。目前还没有经历过sql解决不了的问题,一个sql解决不了就用临时表,几个sql解决(笑)。虽然不是最佳实现。但目前还都能凑合应付,但咱不能就此停步不前吧?整合这段时间项目有空,于是就研究了一下用python写udf。why python??因为我还不会jav...

2017-10-29 21:25:00 158

转载 通过Cloudera在hadoop生态圈中安装Sentry服务。

写在张文章时,差点辣死我了。把sentry数据库密码搞掉了,导致hive,impala,hue都挂了。此事要引以为戒,以后要小心操作了。安装Sentry服务    a) 在cloudera上添加Sentry服务                b) 选中Sentry服务并继续    c)...

2016-12-05 14:00:00 123

转载 HBASE学习笔记-初步印象

HBASE概念:   HBASE是一个分布式架构的数据库,通过对数据进行多层的分块打散储存。从而改写传统数据库的储存能力和读取速度。HBASE的集群服务器:   HBASE的集群主要分为Zookeeper集群,Master集群,RegionSever集群。     Zookeeper集群:储存Table的Region地址,管理Master和RegionSever服务...

2016-10-28 10:06:00 70

转载 Hadoop是什么?一句话理解

Hadoop(MapReduce&HDFS)1.学习目的(前言)   在从业了六年IT生涯里,做个实施顾问、业务顾问、BA需求分析师、项目经理,现在重新定位自己,在新公司做起了开发顾问,虽然经历过很多转折、跨度也有点大。但是抓住了机会,开始接触大数据行业了。虽然目前工作中的都是使用Hive SQL进行开发,没有涉及太多真正大数据的东西,但是觉得学习大数据还是很有必要,所...

2016-10-21 11:07:00 203

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除