自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 hive编程指南——读书笔记(无知拾遗)

set hive.metastore.warehouse.dir=/user/myname/hive/warehouse;用户设定自己的数据仓库目录。不影响其他用户。也在$HOME/.hiverc中设置,则每次启动hive自动加载hive -(d,ef,H,h,i,p,S,v)定义变量var,在hql中直接引用${var}set (显示或修改)

2015-04-30 10:17:40 1472 2

原创 hive中使用case、if:一个region统计业务(hive条件函数case、if、COALESCE语法介绍:CONDITIONAL FUNCTIONS IN HIVE)

前言:Hive ql自己设计总结1,遇到复杂的查询情况,就分步处理。将一个复杂的逻辑,分成几个简单子步骤处理。2,但能合在一起的,尽量和在一起的。比如同级别的多个concat函数合并一个select也就是说,字段之间是并行的同级别处理,则放在一个hive ql;而字段间有前后处理逻辑依赖(判断、补值、计算)则可分步执行,提前将每个字段分别处理好,然后进行相应的分步简单逻辑处理。一、 场景:日志中

2015-04-28 17:40:48 28764 1

原创 sql的简单提高效率方法

少用in操作(效率极差),尽量用表关联代替尽量有where(减少读取量),where操作列尽量有索引(加快查询)    (mysql索引使用B-Tree数据结构对特定列额外组织存放,加快存储引擎查找记录的速度,不需回表查询数据的就是聚簇索引(索引和数据存放在一起)。通常是需要回表再查数据,需要消耗额外的磁盘IO。)主键是特殊的唯一索引(不含null),唯一索引更好用复合索引设计合理

2015-04-23 16:18:01 1433

转载 sql的索引:网上看到不错,整理成自己的东西

数据库建立索引可以提高查询速度。假如我们创建了一个 mytable表:CREATE TABLE mytable(ID INT NOT NULL,username VARCHAR(16) NOT NULL  );  随机向插入了10000条记录,其中有一条:5555, admin。在查找username="admin"的记录 SELECT * FROM mytable WHERE usern

2015-04-23 15:38:24 758

原创 python进行md5加密

代码函数import hashlibdef md5(str): m = hashlib.md5() m.update(str) return m.hexdigest()f = open('idfa.csv','r')result = open('test.csv','w')for line in f.readlines(): encrypt

2015-04-22 12:01:26 1521

原创 python的subprocess:子程序调用(调用执行其他命令);获取子程序脚本当前路径问题

python subprocess用于程序执行时调用子程序,通过stdout,stdin和stderr进行交互。 Stdout子程序执行结果返回,如文件、屏幕等 Stdin 子程序执行时的输入,如文件 Stderr错误输出python subprocess类似os的部分功能,可以说是优化的专项功能类, os调用子程序参见http://blog.csdn.net/longshenlmj/art

2015-04-21 18:48:50 27221 2

转载 hadoop端口使用配置总结(非常好的总结)

转自http://www.aboutyun.com/thread-7513-1-1.htmlHadoop集群的各部分一般都会使用到多个端口,有些是daemon之间进行交互之用,有些是用于RPC访问以及HTTP访问。而随着Hadoop周边组件的增多,完全记不住哪个端口对应哪个应用,特收集记录如此,以便查询。这里包含我们使用到的组件:HDFS, YARN, HBase,

2015-04-20 11:21:29 5409

原创 python的u'字符串"(字符编码):字符串前有u,表示字符串以unicode格式存储

举个例子>>> s = u'\u6ce8\u91ca'>>> su'\u6ce8\u91ca'>>> print s注释>>> print type(s)<type 'unicode'>>>> print s.encode('gbk')注释字符串前加u表示为unicode编码,而当前文本的unicode编码 可以设定, 比如utf-8编码就是第一行加上:# -*- coding:

2015-04-17 17:01:08 11797

原创 sql中奇怪的sum(1),sum(2),count(1),count(6),count(*):统计总数

sql的统计函数sql统计函数有 count 统计条数,配合group用 sum 累加指定字段数值但注意sum(1)就特殊sum(1)等同于count(*) sum(1)统计个数,功能和count(*)一样,但效率上count(*)高。所以尽量少用。举个小例子SELECT ad_network_id,,sum(1),count(*),sum(2),count(5)fro

2015-04-03 18:39:49 18035 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除