自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 改造Vim成为Java IDE环境

Vim 功能强大,但是原始Vim并没有安装Plugin,所以

2014-04-12 17:44:00

阅读数 5

评论数 0

翻译 【中文摘要】redshift是如何改变了游戏规则

AWS Redshift: How Amazon Changed The Game http://blog.aggregateknowledge.com/2013/05/16/aws-redshift-how-amazon-changed-the-game/ 1. 从多年前,当自己...

2014-03-22 00:32:23

阅读数 18

评论数 0

转载 hive 优化(quora)

http://www.quora.com/Apache-Hive/What-are-the-best-practices-for-using-Hive-What-settings-should-we-enable-most-of-the-time

2014-03-20 00:21:47

阅读数 30

评论数 0

原创 reshift 实测

single node xl copy from remote host with hadoop cat method(cross region):  PS: not support for copy data from diff bucket 147M rows(in a free nod...

2014-03-19 21:37:12

阅读数 37

评论数 0

翻译 【官方文档摘要】redshift faq

原文:http://aws.amazon.com/redshift/faqs/ 1. 节点数限制 默认每区节点数上限为16,增加更多节点需要联系亚马逊 2. 可用性问题 硬盘错误可能导致性能下降 节点错误导致机群有几分钟的不可用 扩展机群也会带来几分钟的不可用 维护窗口的可用性没有明...

2014-03-18 22:33:24

阅读数 77

评论数 0

翻译 亚马逊reshift初印象

原文:http://www.full360.com/2013/02/14/amazon-redshift-full360-review-first-impressions.html 1.  将大表分割会得到很大的加速比 1百亿行大表单文件:4小时35分 同样文件40份:7分钟 2. 可用性...

2014-03-18 22:28:17

阅读数 126

评论数 0

翻译 亚马逊培训资料

http://www.slideshare.net/AmazonWebServices/amazon-redshift-best-practices http://www.full360.com/2013/02/14/amazon-redshift-full360-review-firs...

2014-03-17 22:39:12

阅读数 39

评论数 0

翻译 redshift 常用操作补记

原文:http://dailytechnology.net/2013/08/03/redshift-what-you-need-to-know/

2014-03-17 22:30:12

阅读数 381

评论数 0

翻译 用redshift加速 Speeding things up with Redshift

原文地址:http://word.bitly.com/post/48854093418/speeding-things-up-with-redshift bitly公司应用redshift的心得 最开心的事  性能好,文档全(最好补点工作机制的文档),费用低还能扩展 最郁闷的事 1. 不支持jso...

2014-03-17 21:57:09

阅读数 118

评论数 0

翻译 redshift中多sort key的优点和注意事项

原文: http://aws.amazon.com/articles/8341516668711341 译注:大多数内容在redshift 官方 开发者手册中均有提及,在此就不记录了。写一些这篇文章中特别指出的。 sort key的选择 sort key可以选择多个,使用时候类似联合索引,仅...

2014-03-17 21:36:24

阅读数 125

评论数 0

翻译 【中文摘要】redshift性价比 Redshift Performance & Cost

http://nerds.airbnb.com/redshift-performance-cost/

2014-03-17 21:10:37

阅读数 160

评论数 0

翻译 【中文摘要】用Redshift驱动交互式数据分析 Powering Interactive Data Analysis by Redshift

redshift是亚马逊aws平台的新数据仓库数据库,pinterst使用redshift作为数据仓库底层OLAP查询引擎得到了很大的性能提升。本文介绍了在使用redshift过程中的一些心得。

2014-03-17 18:49:11

阅读数 541

评论数 0

原创 用hive工具处理日志产生会话信息

原始日志是用户的行为,按照用户和时间排序。我们将事件按间隔时间分成不同的会话,分析用户的会话行为。 hive中支持udf创建自定义函数。我们利用此功能来实现从原始记录产生会话。 例如原始数据如下: uid    timestamp 1       1000 1       1250 1      ...

2014-02-13 10:42:21

阅读数 201

评论数 0

原创 python pandas库的应用(类比mysql语言)

pandas和sql语言对比 create table 我们尝试创建一张表,保存每天的三个值 In [6]: from pandas import * import numpy as np randn = np.random.randn random_integers = np.ran...

2014-01-03 10:55:23

阅读数 707

评论数 0

原创 ipython notebook安装(ubuntu环境)

1.      安装ipython-notebook 如果需要在virtualenv内运行,先安装virtualenv环境,然后运行pipinstall ipython 2.      启动ipython notebook ipython notebook 3.      安装matplo...

2014-01-03 10:50:37

阅读数 1748

评论数 0

原创 killed process -- meet oom killer

Killed process Last Saturday, one important process waskilled by system. It happened for second time. I admit the server was using lotsmemory that t...

2013-09-09 14:19:31

阅读数 201

评论数 0

原创 ubuntu gnome terminal无法使用sz下载文件解决方法

gnome terminal在多跳登录到远端ssh主机时,scp很麻烦,还是用sz省事。但是默认terminal不支持zmodem,所以可以用screen解决这个办法。 1 先安装一个screen包 2 screen -S download 3 Ctrl+a再输入:进入screen命令行,输...

2013-08-05 16:19:23

阅读数 636

评论数 0

原创 ThinkPad E40上用U盘安装Windows XP

今天拿到一台E40光驱残废,需要安装windows xp系统,着实费力,特别记录下来。一开始用大白菜工具做了番茄花园,深度等著名厂出的iso,结果凡是基于gho复制的都报错:ntdlr is missing 而基于xp官方盘(包括官方盘本身)也报错:inf file txtsetup sif ...

2013-07-22 18:41:15

阅读数 62

评论数 0

原创 hive 中的空值判断

注意用if ( NULL is NULL, True, False) 方式,而非常用=方式

2013-04-15 15:30:02

阅读数 33

评论数 0

原创 python闭包和nonlocal关键字 -- PEP 3104笔记

python闭包 在计算机科学中,闭包(Closure)是词法闭包(Lexical Closure)的简称,是引用了自由变量的函数。这个被引用的自由变量将和这个函数一同存在,即使已经离开了创造它的环境也不例外。所以,有另一种说法认为闭包是由函数和与其相关的引用环境组合而成的实体。 举个例子来说...

2013-04-02 18:21:11

阅读数 502

评论数 0

原创 Python默认参数的一个陷阱

代码的例子: >>> def f(n=[]): ... n.append(1) ... print n ... >>> f() [1] >>> f() [1, 1] >>> f() [1, 1, 1] &g...

2013-04-02 14:05:26

阅读数 273

评论数 0

原创 用代理方式实现android系统抓包

调试android应用的网络交互时,常常希望看到网络包的交互过程。而在破解app时也经常希望看到网络交互过程的抓包。之前的思路一直是在手机上安装抓包软件,这种方式实时性不好而且分析能力有限。有天看到测试组的MM用一个简洁的方式解决的这个问题,很巧妙,特记录下分享。 1 设置手机上的代理到...

2013-03-30 16:20:24

阅读数 3363

评论数 1

原创 python tricks

python tricks大多数都和python一切均对象,对象均可修改的灵活性有关。http://www.rafekettler.com/magicmethods.html Meta Class http://stackoverflow.com/questions/100003/wh...

2013-03-28 17:17:04

阅读数 13

评论数 0

原创 jailkit

create a limit command console using jailkit

2013-03-22 15:28:43

阅读数 21

评论数 0

原创 unix文件的时间

http://www.brandonhutchinson.com/ctime_atime_mtime.html chown 不会修改mtime

2013-03-22 10:55:46

阅读数 34

评论数 0

原创 mysql 两种主从同步方式在执行跨库语句时的不同

https://dev.mysql.com/doc/refman/5.1/en/replication-options-slave.html#option_mysqld_replicate-do-db

2013-03-22 10:20:41

阅读数 16

评论数 0

原创 dhcp环境中如何指定dns server

http://www.noah.org/wiki/Resolv.conf

2013-03-22 09:19:11

阅读数 56

评论数 0

原创 夏令时切换时脚本的不同反应

夏令时切换时脚本的不同反应

2013-03-11 16:39:07

阅读数 14

评论数 0

原创 ec2上启动ebs的instance时显示cloudimg-rootfs does not exist

console报错信息: Gave up waiting for root device.  Common problems:  - Boot args (cat /proc/cmdline)    - Check rootdelay= (did the system wait long e...

2013-03-11 15:14:14

阅读数 242

评论数 0

原创 pep8 常见不规范纠正

pep8 常见不规范纠正

2013-03-01 15:51:35

阅读数 18

评论数 0

原创 mysql中文问题:api访问正常,命令行显示问号

用python sqlalchemy进行开发时,发现在命令行查询中文字段显示的都是问号,心想有碰到默认latin编码的问题了。开始时候思维定势的从编程接口查,无果。后来才发现从编程接口可以取出来正常的中文,才开始关注是命令行编码的问题。参考stackoverflow,在命令行中输入 SET NAM...

2013-02-27 14:37:09

阅读数 250

评论数 0

原创 Amazon EC2: create a ebs boot instance

to write reference: http://www.capsunlock.net/2009/12/create-ebs-boot-ami.html https://forums.aws.amazon.com/thread.jspa?messageID=155756 htt...

2013-02-25 17:02:28

阅读数 19

评论数 0

原创 素材库

unix command 'yes' {} use in command like mkdir -p /tmp{1,2}

2013-02-22 17:18:42

阅读数 10

评论数 0

原创 MediaWiki防止恶意修改及被恶意修改后的回滚修复

MediaWiki如果按照默认设置的话,用户可以自由注册,并且匿名修改,这常被bot程序用来恶意修改成广告等垃圾页面。 首先,修改LocalSettings.php页面,加入限制: # The following permissions were set based on your choic...

2012-10-08 15:29:12

阅读数 437

评论数 0

原创 Hive某些版本在查询多个小文件组成的hive表时时间超长

keywords: hive, slow query, many splits, inputformat level: high evidence: different version hive compare: 1 node, select count(1) from t, time l...

2012-06-19 17:52:04

阅读数 495

评论数 0

原创 hadoop在reduce阶段出现DataXceiver数量的报错

keywords: hive query error, reduce phase error, datanote error level: critical evidence: execute large overwrite operation, aborting in reduce pha...

2012-06-19 17:50:33

阅读数 970

评论数 0

原创 Hadoop Mapreduce作业在reduce阶段出现Too may files 错误

key words: DataXceiverServer, Too many open files, ulimit level: critical evidence: ==datanode== 2012-06-14 04:13:54,011 WARN org.apache.hadoop.h...

2012-06-19 17:48:43

阅读数 551

评论数 0

原创 使用sqoop工具进行数据表增量导入

sqoop工具是hadoop环境下连接关系数据库和hadoop存储系统的桥梁,支持多种关系数据源和hive,hbase表格的相互导入。 一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入。如果数据表较大,我们通常不可能每次都进行全表的导入。幸运的是,sqoop提供了增量导入数据...

2012-06-05 17:16:32

阅读数 5616

评论数 1

原创 对现有Hive的大表进行动态分区

分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然...

2012-06-04 11:40:28

阅读数 2518

评论数 0

原创 [Hive on HBase] HBase从单点到集群

HBase默认安装只是在单个节点,能力有限,很难满足hive批量大数据的处理要求。我们需要把hbase扩展为多节点的集群。 首先,HBase依靠Zookeeper来获得集群节点信息,默认情况,zookeeper已经和hbase绑定了,只需要在hbase-site里配置好集群就可以。先停止hbas...

2012-05-31 19:03:23

阅读数 846

评论数 0

提示
确定要删除当前文章?
取消 删除