- 博客(5)
- 资源 (17)
- 收藏
- 关注
原创 Hive抽数到ElasticSearch实现
一、背景有关ES的详细介绍参考:https://www.cnblogs.com/cjsblog/p/9439331.html 公司有些比如使用算法训练的模型数据等需要快速的检索性能,最终选择使用ES来存储,然后使用别名来区分每一批次的最新数据,对外(web接口)只需暴露别名即可。二、常规实现ES数据全量数据摄入(Overwrite模式)覆盖方式或许是公司最常用的方式,每天T+1或者...
2019-09-29 11:28:01 819 2
原创 有关数仓增量和全量同步的一些思考
背景相信很多公司都是基于Hive做的数仓,从而对外提供数据服务。这里只讨论离线数仓,做数仓必然离不开对大量数据的ETL处理工作。目前的ETL种类繁多,可选择的工具也有很多,比如使用Sqoop, DataX做离线的T+1数据同步, Spark或者Flink做T+0的实时数据同步等。目前有很多公司业务是T+1的,每天需要同步昨天的业务库(MySQL、mongodb等)的数据到Hive数据仓库中,...
2019-09-26 16:07:29 2495
原创 Hive静态分区数据拷贝
Hive版本:2.1.1set hive.support.quoted.identifiers=none;insert overwrite table ods.ods_call_logs_xx partition(pt='2019-09-22') select `(pt)?+.+` from test_ods.ods_call_logs_xx where pt = '2019-09-22...
2019-09-24 10:12:51 421
原创 mongodb取数至数仓总结
问题描述:目的:使用mongoexport工具将mongo表数据抽到hive仓库中(T+1)并进行初步清洗遇到的问题:1、抽数的科学记数法问题2、json格式嵌套导致列错乱的问题通常做法:1、使用如下命令将数据导出csv格式source /etc/profile;mongoexport --host xxxxx \--port 27012 --username xxx...
2019-09-07 11:04:21 1103
转载 使用子查询可提升 COUNT DISTINCT 速度 50 倍
Countdistinct是SQL分析时的祸根首先:如果你有一个大的且能够容忍不精确的数据集,那像HyperLogLog这样的概率计数器应该是你最好的选择。但对于需要快速、精准答案的查询,一些简单的子查询可以节省你很多时间。让我们以我们一直使用的一个简单查询开始:哪个图表的用户访问量最大?select dashboards.name, count(distinct ...
2019-09-02 22:09:13 192
H2DB所需的jar和DEMO示例,可直接导进eclipse中
2015-05-21
Android 线程AsyncTask逐步在list中加入条目
2013-10-12
web应用技术入门范例 非常实用
2013-10-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人