Hadoop
雨霁赤赤
努力有可能会成功,但是不努力连成功的机会都没有。
展开
-
大数据建立模型过程
最近没有更新博客,是因为一直在思考自己的职业方向,作为一个工作已经快三年的java开发工程师来说,java的技术应该是非常优秀的。而我则不然,因为我在此期间做了大概有一年的数据处理。根据这一年所做的事情想要做个小总结,总觉得以后的工作中会用到的。1.首先根据需求进行制作星型图(需求中会给出查询条件以及查询结果)根据需求建立的星型图 主要分为事实表以及其他的维度表(事实表就是主表,主表里面包含...原创 2018-11-26 14:49:05 · 6512 阅读 · 1 评论 -
sql中将“年月日时分秒”改成年月日格式的方法
根据最近的工作与学习,总结了一些自己以前不知道的知识点,可能不详细,还请大家多多指教。mysql中将时间显示为“2019-06-24”的格式:DATE_FORMAT(a.start_time,’%Y-%m-%d’) as busiDatehive中将时间显示为“2019-06-24”的格式:to_date(s.start_time) 或者 substr(0,10)如果学习到新的知识还会...原创 2019-06-24 18:09:03 · 13962 阅读 · 0 评论 -
hive中datediff,date_add和date_sub的用法
hive中时间函数日期比较函数:datediff;日期增加函数:date_add;日期减少函数:date_sub原创 2019-07-02 17:31:37 · 25187 阅读 · 0 评论 -
hive中的over partition by,mysql中用group_concat
hive中over()partition by=mysql中group_concat原创 2019-07-01 19:46:53 · 1608 阅读 · 0 评论 -
hive中的nvl函数
hive中的nvl函数为判断是否为空值,和oracle判断空值使用的函数一致。nvl叫做空值转换函数。在mysql和sqlsever中分别使用的是nullif和ifnullmysql-nullif(expr1, expr2),sqlserver-ifnull(expr1, expr2)。备注:1、如果expr1为NULL,返回值为 expr2,否则返回expr1。2、适用于数字型、字符型...原创 2019-06-20 10:40:39 · 38466 阅读 · 0 评论 -
大数据之hive工具使用
大数据@TOC使用hive的工具hive是数据仓库所使用的一种语言,类似于sql。需要连接服务器来使用,那么我介绍一下可以使用hive的工具。目前我所知道的有两种,一种是xshell,一种是dbeaver。xhsellxhsell相当于是一种服务器,可以进行重启等操作。配置上即可使用。dbeaverdbeaver是一个很全能的工具。下载之后,点击文件,新建,然后可以选择数据库或者ER...原创 2019-06-10 13:29:51 · 1257 阅读 · 0 评论 -
hive学习篇--hive表结构的字段顺序与oracle必须一致
hive的数据是从oracle中导入的,所以hive和oracle的结构和数据是一致的,将oracle的数据导入hive中时,要注意hive表里面不仅是表结构与oracle一致,字段的顺序也必须是一致的。例如:oracle中字段排序name1code1name2code2那么hive中也必须是name1code1name2code2...原创 2018-12-14 14:12:09 · 1277 阅读 · 0 评论 -
数据清洗的一些梳理
转自:https://zhuanlan.zhihu.com/p/20571505照例,先上图:预处理阶段预处理阶段主要做两件事情:一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。二是看数据。这里包含两个部分:一是看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;二是...转载 2018-11-26 15:53:45 · 4848 阅读 · 0 评论 -
理解数据仓库中星型模型和雪花模型
转自:https://blog.csdn.net/u010454030/article/details/74589791在数据仓库的建设中,一般都会围绕着星型模型和雪花模型来设计表关系或者结构。下面我们先来理解这两种模型的概念。(一)星型模型图示如下:星型模是一种多维的数据关系,它由一个事实表和一组维表组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。强调的是对维度进行预...转载 2018-11-26 14:58:56 · 431 阅读 · 0 评论 -
ROW_NUMBER()与FIRST_VALUE(url)区别(取首次记录)
工作中经常会遇到一次时间可以进行多次更改的情况,每次更改都会生成一条记录。那么如果想要取第一条数据的情况下,可以使用函数来解决。hive函数取首次数据:1.FIRST_VALUE取分组内排序后,截止到当前行,第一个值select distinct wo_id,first_value(created_at) over(partition by wo_id order by id asc) a...原创 2019-08-03 14:36:20 · 1348 阅读 · 0 评论