数据仓库
文章平均质量分 92
sean_zhou
专注数仓10 年
展开
-
ETL技巧
目前做的项目ETL都是用SQL批量加载和转换数据,不知道是否行业都这样,只是觉得SQL批量处理起来速度很快,每天处理几百万条数据一到两小时可以处理完,下面简单介绍处理流程。 一、同步原始数据至ODS可使用脚本语言或者ETL工具,建议每小时或每半小时执行一下,这样可以减少同步压力;原创 2011-07-26 22:58:27 · 967 阅读 · 0 评论 -
Sql去重方法
前几天在群里见一朋友问一题目,据说是微软一朋友出的,剔除一张四亿条记录的表里面的重复数据。我的第一想法就是先分区,然后直接去重,合并。分区与合并暂时不觉得有问题,只是在去重代码上有争议,后来将我知道的三种方法测试了下,group_by效率最高,Distinct和Partition原创 2011-09-26 00:38:42 · 1344 阅读 · 0 评论 -
电子商务数据仓库架构
根据目前了解知识,简单介绍电子商务大数据的数据仓库架构,希望大家批评指正。 首先说说数据仓库建设的几大部分: 一、计算平台、展示平台 计算平台目前主流hadoop集群+(greenplum or teradata),可支持日PV千万级别的应用需求, 也有电商使用oracle、sqlserver做计算平原创 2012-04-16 22:40:59 · 2179 阅读 · 0 评论 -
数据仓库工程师的职业规划
从2011年3月开始从事数据仓库工作,算起来马上三年了,这三年做过etl工程师,做过模型架构师,做过团队管理,也做过需求分析、数据挖掘,如今又做回etl工程师,只是为了蹲得低点跳的更高。下面谈谈做各个职位的心得:etl工程师:比较简单,技术上掌握etl工具和几种脚本语言,业务上了解即可; 待遇:3-30w/年 建议做2-3原创 2014-02-09 18:21:26 · 13766 阅读 · 11 评论 -
大数据相关岗位介绍
前言:从10年开始从事数仓岗位,转眼已经十几年了,这些年一直在互联网行业,最近一份工作跳到了大厂,也混到了相当于阿里P8的级别,最近一两年,面试的应届生、毕业一两年的小孩,问起他们对大数据方面工作的理解,大部分都了解的不够全面和深入,心想着这些会影响他们的方向选择和职业规划,也许会影响人的一生,所以趁五一在家不忙,打算把我理解的一些知识,在不违反公司保密条例的情况下分享给大家,期望大家少走一点弯路,选择到自己满意的岗位。目录:本文大概会分以下几部分:1、大数据相关岗位介绍2、数仓(数据仓原创 2022-05-03 15:37:27 · 3568 阅读 · 3 评论