- 博客(17)
- 资源 (1)
- 收藏
- 关注
转载 Sqoop使用和参数简介
Sqoop 工具是Hadoop环境下连接关系数据库,和hadoop存储系统的桥梁,支持多种关系数据源和Hive,hdfs,Hbase的相互导入。一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入,根据每天的数据量而言,sqoop可以全表导入,对于每天产生的数据量不是很大的情形可以全表导入,但是sqoop也提供了增量数据导入的机制。下面介绍几个常用的sqoop的命令,以及一
2017-05-04 11:31:29 523
转载 Hive分析窗口函数(四) LAG,LEAD,FIRST_VALUE,LAST_VALUE
继续学习这四个分析函数。注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )Hive版本为 apache-hive-0.13.1数据准备:cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3c
2017-04-27 09:48:37 259
转载 Hive分析窗口函数(三) CUME_DIST,PERCENT_RANK
本文中介绍前几个序列函数,NTILE,ROW_NUMBER,RANK,DENSE_RANK,下面会一一解释各自的用途。Hive版本为 apache-hive-0.13.1注意: 序列函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )数据准备:cookie1,2015-04-10,1cookie1,2015-04-11,5cookie1,2015
2017-04-27 09:44:07 273
转载 Hive分析窗口函数(二) NTILE,ROW_NUMBER,RANK,DENSE_RANK
继续学习这四个分析函数。注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,点此查看前面的文章 )Hive版本为 apache-hive-0.13.1数据准备:cookie1,2015-04-10 10:00:02,url2cookie1,2015-04-10 10:00:00,url1cookie1,2015-04-10 10:03:04,1url3c
2017-04-27 09:40:41 180
转载 Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。今天先看几个基础的,SUM、AVG、MIN、MAX。用于实现分组内所有和连续累积的统计。Hive版本为 apache-hive-0.13.1数据准备CREATE EXTERNAL TABLE lxw1234 (cookieid string,createti
2017-04-27 09:38:49 302
原创 Hive数据处理之一行变多行
直接举例子:hive> select dp_android_dlu, video_android_dlu from video_mertics where p_date=20141204;4250015 890699Time taken: 75.391 secondshive> select dp_android_dlu, p f
2017-04-22 15:52:15 1960
转载 SPSS是什么?
一、概况: SPSS是软件英文名称的首字母缩写,原意为Statistical Package for the Social Sciences,即“社会科学统计软件包”。但是随着SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已于2000年正式将英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”,标志着SPSS的战
2008-08-01 23:43:00 4061 1
转载 当前主流ETL工具链接集合
(1) IBM: 收购来的DataStage http://www-306.ibm.com/software/data/integration/datastage/ DB2 ETL解决方案 http://www.ibm.com/developerworks/db2/library/techarticle/dm-0411simchuk/ DB2 BI平台:
2008-03-13 23:03:00 862
转载 目前国际三大主流ETL工具选型分析
ETL(extract, transform and load)产品乍看起来似乎并不起眼,单就此项技术本身而言,几乎也没什么特别深奥之处,但是在实际项目中,却常常在这个环节耗费太多的人力,而在后续的维护工作中,更是往往让人伤透脑筋。之所以出现这种状况,恰恰与项目初期没有正确估计ETL工作、没有认真考虑其工具支撑有很大关系。 做ETL产品的选型,仍然需要从以前说的四点(即成本、人员经验、案例和技
2008-03-13 23:01:00 2527 1
转载 数据仓库技术解决方案
数据仓库技术解决方案目录:1. BusinessObjects(BO)数据仓库解决方案2. IBM数据仓库解决方案 3. Oracle数据仓库解决方案 4. Sybase数据仓库解决方案 5. Infomix数据仓库解决方案 6. NCR数据仓库解决方案 7. Microsoft数据仓库解决方案 8. SAS数据仓库解决方案 9. CA数据仓库解决方案 IBM、Oracle、Sybas
2008-02-24 23:58:00 4071
转载 智能决策支持系统(IDSS)
智能决策支持系统 (IDSS) 1. 简介 2. 数据驱动的DSS 3. 模型驱动的DSS 4. 知识驱动的DSS 5. 基于Web的DSS 6. 基于仿真的DSS 7. 基于GIS的DSS 8. 通讯驱动的DSS 1. 简介 长期来信息系统的研究者以及技术人员不断研究 和构建决策支持系统(DSS)。DSS的大致发展历程是:60年代后期,面向模
2008-02-24 18:58:00 4178
转载 IT“圣经”
第一章、世界的形成太初, 只是一片混沌。大师图灵沉睡在这片漫无边际的黑暗中。先知书《编程之道》说, 有一天, 大师梦见自己变成了一台机器, 浑然不知是机器梦见了自己还是自己梦见了机器。他醒来, 天地就分开了。无数巨大的计算机从天而降, 秩序由此建立。又过了一千年, 第一批人类从原始的混沌之梦中醒来。没有人知道大师的去处, 他们好奇地围绕在那些巨大的机器周围, 他们相信这些机器是世
2007-07-17 23:30:00 1217
原创 学习如何更好的工作
上周四晚和两位大哥级的同事一块吃饭,两位同事都我相处时间比较长,一块在项目中摸爬滚打走过来的,相互之间都比较熟识。席间,我向两们请教了关于他们怎么看我在以后工作方面的应该注意什么?根据我个人的理解两位话大可分两个意思: 1.提高上司/客户对所做工作的满意度 如果上司分配给你一个任务或项目中的一个模块,他会在一个合适的时间内去检查你的工作,第一人要求是按时完成工作任务,更重要的
2007-07-16 01:14:00 1231
原创 focus,关注你的焦点
人的大脑就像一个杯子,当他被生产出来时他的容量不管是多大,但总是有限的, 装满了可乐就不能再装橙汁了,装满了沙子就不能再装金子, 所以我们要把我们有限的心思和精力去关注、思考和处理对于我们最想做的事。 把我们杯子里的沙子清理干净,以便来盛纳我的最想做的事。 比如:我们想做好工作,就不能在工作的时间里外去考虑太多的其它乱七八糟的事情, 要把我们的限的精力放到我们我们的工作上去。
2007-07-08 21:32:00 692
原创 给一朋友的关于项目组建设的建议
CSDN Blog开篇,很久以前就发CSDN是个好地方,有事没事都应该多来这转转, 哈哈,不多说了,开始正文,并自己祝贺嗷山的Blog开张了!---------------------------------------------------------一朋友要组建一个项目组,向我问关于项目组组建,项目管理,项目控制等的一些建议,我参加工作两年了,做过些项目,也没做过项目管理,但还是那
2007-07-02 00:26:00 3749
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人