数据仓库
badbeat
这个作者很懒,什么都没留下…
展开
-
mysql查询优化——索引
先举两个工作中使用索引的例子,效果还是非常明显的。使用explain命令:sql执行时间从150s优化到1s以内。第二个sql,执行时间从80s到0.3s。可以看到,加索引之后,扫描的条数大大减少!查询时间优化了好几个数量级!那么问题来了?索引的原理是什么?如何加索引?哪些情况会不走索引?加索引有哪些优缺点?什么情况下适合加索引?首先,索引是一种数据结构。相当于字典的音序表。如果没有索引,就需要扫描全表。有了索引,可以提高查找的效率。查找算法!自然会想到二分...原创 2020-09-09 18:26:12 · 153 阅读 · 0 评论 -
记一次sql优化,从40s到1s
写sql也快有3年了,总结过hive、mysql的sql优化,前几天遇到一个问题很快的解决了,纪录一下。数据库为mysql,修改之前的sql也是我写的,出现问题是报表超时了无法加载,我手动执行了一下sql需要40s,如下:select d.DEPT_NAME,CASE b.Corporation WHEN 6 THEN 'f' ELSE '其他' END AS '公司' ,a.UserId原创 2020-08-25 10:24:17 · 290 阅读 · 0 评论 -
一次easyscheduler报错及解决
起因:重装easyscheduler之后,sqoop任务报如下错误:[INFO] 2019-12-16 10:50:45.943 cn.escheduler.server.worker.log.TaskLogger:[178] - [taskAppId=TASK_11_4005_15340] -> Error: /opt/soft/hadoop does not exist! Pl...原创 2019-12-16 16:04:45 · 549 阅读 · 1 评论 -
sqoop的几个坑
shell脚本中的sqoop语句如下:sqoop import --connect jdbc:mysql://${database_IP}:${database_PORT}/${database_NAME}?tinyInt1isBit=false --username ${database_USER} --password ${database_PASSWORD} --query ...原创 2019-11-28 11:15:06 · 1077 阅读 · 2 评论 -
hive报错:Illegal repetition near index 1
for((i=1;i<=24;i=i+1))doday=`date -d "${day1} -$i day" +%Y%m%d`echo "execute date================================="${day}hive -e "set hive.merge.mapfiles = true;set hive.merge.mapredfi...原创 2019-11-12 16:09:53 · 3434 阅读 · 0 评论 -
一个未解决的hive语句问题
drop table dm_project.user_action_detail_lylccreate table dm_project.user_action_detail_lylc asselecta.teacher_id,a.teacher_name,a.teacher_subject,a.teacher_stage,a.school_name,b.action,b.re...原创 2019-11-07 15:43:14 · 589 阅读 · 1 评论 -
hive常用函数大全
1.日期函数to_datefrom_unixtimeunix_timestampdatediffyear2.数值计算round——取整/指定精度取整floor——向下取整ceil——向上取整abs——绝对值3.字符串处理lengthsubstringconcattrimsplit——返回数组[]4.聚合函数countsum5.关系运算like...原创 2019-10-22 14:51:47 · 208 阅读 · 0 评论 -
大数据时代还需要数据仓库么?——关于数据仓库的思考
最近在做业务数据支持相关的工作,主要内容包括PC页面上的一些统计值的开发,开发的方式是把数据接入hive数据仓库每天进行批处理,然后把结果存到mysql数据库,最后进行java开发,使用的是SSM框架。 开发过程中,总觉得步骤有些繁琐,我们公司使用的是阿里云EMR,最终结果需要展示哪些数据,首先要在EMR上的hive数据仓库中接入业务数据,然后使用sql处理业务逻辑,把需要展示的...原创 2019-09-11 11:51:36 · 889 阅读 · 0 评论 -
传统数据仓库与大数据平台下的数据仓库
我在之前的数据仓库基础入门中写过,数据仓库技术在大数据背景下发生了很多改变,我粗糙的把数据仓库分成传统数据仓库和大数据数据仓库,其区别主要数数仓数据存储的地方不同,传统数仓数据存储在mysql等关系型数据库上,大数据数仓存储在hadoop平台的hive中(实际上是HDFS中),当然也有其他的数仓产品比如TD、greenplum等。 我接触过的传统数仓技术架构是使用kettle做E...原创 2019-07-12 12:08:01 · 3812 阅读 · 0 评论 -
hive数据写入ES报错
使用插件,将hive中的数据存入ES,在向映射表中更新数据的时候报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask MapReduce Jobs Launched: Stage-Stage-3: Map: 1 Reduce: 1 Cumulative CPU: 4...原创 2019-07-02 19:11:47 · 2780 阅读 · 2 评论 -
数据仓库为什么要分层
第一家公司的老数仓技术架构:mysql+kettle,分层s(ods)层、b层(有点记不清了,一个是取数据,一个是做拉链)、m层(根据业务设计的表:贷前loan_before、贷后loan_after,并且是拉链表_h)/a层(a_fc_analysis_user_info/a_fc_analysis_transaction_info)第一家公司的新数仓技术架构:sqoop+hive,分成ods...原创 2019-06-14 18:52:18 · 3459 阅读 · 0 评论 -
数据仓库基础入门
数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,...原创 2019-04-30 18:45:14 · 547 阅读 · 0 评论