自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sean_zhou的专栏

本人博客尽量保持原创,希望和大家一起学习成长。

  • 博客(11)
  • 资源 (2)
  • 收藏
  • 关注

原创 大数据相关岗位介绍

前言:从10年开始从事数仓岗位,转眼已经十几年了,这些年一直在互联网行业,最近一份工作跳到了大厂,也混到了相当于阿里P8的级别,最近一两年,面试的应届生、毕业一两年的小孩,问起他们对大数据方面工作的理解,大部分都了解的不够全面和深入,心想着这些会影响他们的方向选择和职业规划,也许会影响人的一生,所以趁五一在家不忙,打算把我理解的一些知识,在不违反公司保密条例的情况下分享给大家,期望大家少走一点弯路,选择到自己满意的岗位。目录:本文大概会分以下几部分:1、大数据相关岗位介绍2、数仓(数据仓

2022-05-03 15:37:27 3551 3

原创 大数据体系常见名词解释

数据仓库:依据一定的方法论、架构规范,基于数据平台创建的数据集,目的是使企业更低成本的计算存储数据,更高效率的使用数据。涉及的技术:范式建模、维度建模、dv,数据集市、数据仓库数据平台:大数据体系相关的一系列工具的集合,含:计算、存储引擎,采集、调度、质量保障、数据消费及各类元数据管理等工具。涉及的技术:hadoop体系、oracle、mysql、gp、di/kettle等调度工具、pentaho/bo等报表工具。数据中台:阿里首次提出的概念,为了企业更高效协同的一种组织协调方式。其他待补充

2021-09-15 09:15:14 208

原创 数据仓库工程师的职业规划

从2011年3月开始从事数据仓库工作,算起来马上三年了,这三年做过etl工程师,做过模型架构师,做过团队管理,也做过需求分析、数据挖掘,如今又做回etl工程师,只是为了蹲得低点跳的更高。下面谈谈做各个职位的心得:etl工程师:比较简单,技术上掌握etl工具和几种脚本语言,业务上了解即可;                待遇:3-30w/年                建议做2-3

2014-02-09 18:21:26 13746 11

原创 电子商务数据仓库架构

根据目前了解知识,简单介绍电子商务大数据的数据仓库架构,希望大家批评指正。            首先说说数据仓库建设的几大部分:       一、计算平台、展示平台            计算平台目前主流hadoop集群+(greenplum or teradata),可支持日PV千万级别的应用需求,            也有电商使用oracle、sqlserver做计算平

2012-04-16 22:40:59 2172

转载 数据挖掘十大经典算法

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法

2011-10-31 21:23:52 2030 2

原创 Sql去重方法

前几天在群里见一朋友问一题目,据说是微软一朋友出的,剔除一张四亿条记录的表里面的重复数据。我的第一想法就是先分区,然后直接去重,合并。分区与合并暂时不觉得有问题,只是在去重代码上有争议,后来将我知道的三种方法测试了下,group_by效率最高,Distinct和Partition

2011-09-26 00:38:42 1332

原创 greenplum 分区和分布键

分布键是按照这个字段值将表中的数据平均分布到每一个节点机器上, 分区是将一张大表按照分区的方式拆成N张小表 每张表必须有分布键,默认情况下会使用长度最短的字段作为分布键,根据分布键的原理,建议使用需要经常作为连接键的字段作为分布键,譬如有订单表和订单明细表,我

2011-08-30 22:29:27 9072

原创 ETL技巧

目前做的项目ETL都是用SQL批量加载和转换数据,不知道是否行业都这样,只是觉得SQL批量处理起来速度很快,每天处理几百万条数据一到两小时可以处理完,下面简单介绍处理流程。 一、同步原始数据至ODS可使用脚本语言或者ETL工具,建议每小时或每半小时执行一下,这样可以减少同步压力;

2011-07-26 22:58:27 956

原创 (GameLoft)上海优酷软件有限公司笔试题

2009-06-01 21:59 记录 今天去上海优酷软件公司面试,据说那些题目都考了几年了,下面根据印象写个大概,供大家有需要时参考。1.选出调用拷贝构造函数的几种情况,多选题。我写的A,B,C,不知道正确答案是啥,2、不知道咋描述,反正与C,C++无关,与数学有点关系。3,定

2011-07-26 22:45:58 2163

原创 SQL小技巧

记录下工作中学会的SQL小技巧,对海量数据处理有一定的效果,也许这些技巧在一些我没看过的书上出现过,敬请谅解。这些技巧我每天想到多少都会增量更新,欢迎关注一、表A和表B数据结构一样,想将表B在表A中不存在的数据插入表A,判断标识键IDINSER

2011-07-20 22:11:35 745

原创 GreenPlum常用函数(日期)

最近使用GP,网上查找资料不太方便,记录工作中遇到的一些常见函数供参考日期1、获取当前日期now(),current_day(),2、字符串转日期timestamp('2011-07-20')timestamp('2011-07-20 00:00:00' )to_date('20

2011-07-20 21:53:23 32313

sqlserver2005技术内幕英文版chm(引擎和优化)

引擎,优化 2本书。sqlserver2005 技术内幕 英文版 chm (引擎 优化)

2010-08-16

sqlserver2005技术内幕(查询和编程)chm_English.rar

chm 英文版技术内幕 sqlserver2005 查询和编程,2本书

2010-08-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除