自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(96)
  • 资源 (1)
  • 收藏
  • 关注

原创 改造Vim成为Java IDE环境

Vim 功能强大,但是原始Vim并没有安装Plugin,所以

2014-04-12 17:44:00 170

翻译 【中文摘要】redshift是如何改变了游戏规则

AWS Redshift: How Amazon Changed The Game http://blog.aggregateknowledge.com/2013/05/16/aws-redshift-how-amazon-changed-the-game/ 1. 从多年前,当自己写的单机处理程序无法处理大量数据的时候,我们考虑购买商业数据仓库支持(每TB年单位 2万-60万美金每

2014-03-22 00:32:23 276

转载 hive 优化(quora)

http://www.quora.com/Apache-Hive/What-are-the-best-practices-for-using-Hive-What-settings-should-we-enable-most-of-the-time

2014-03-20 00:21:47 232

原创 reshift 实测

single node xl copy from remote host with hadoop cat method(cross region):  PS: not support for copy data from diff bucket 147M rows(in a free node): 58m 31M rows(in a high load node): 1h35m 347M

2014-03-19 21:37:12 221

翻译 【官方文档摘要】redshift faq

原文:http://aws.amazon.com/redshift/faqs/ 1. 节点数限制 默认每区节点数上限为16,增加更多节点需要联系亚马逊 2. 可用性问题 硬盘错误可能导致性能下降 节点错误导致机群有几分钟的不可用 扩展机群也会带来几分钟的不可用 维护窗口的可用性没有明确说明 3. 数据备份 数据有2个备份,一个在本地节点,一个是s3快照

2014-03-18 22:33:24 555

翻译 亚马逊reshift初印象

原文:http://www.full360.com/2013/02/14/amazon-redshift-full360-review-first-impressions.html 1.  将大表分割会得到很大的加速比 1百亿行大表单文件:4小时35分 同样文件40份:7分钟 2. 可用性问题 在单节点当机或维护窗口时间,机群的可用性问题。

2014-03-18 22:28:17 268

翻译 亚马逊培训资料

http://www.slideshare.net/AmazonWebServices/amazon-redshift-best-practices http://www.full360.com/2013/02/14/amazon-redshift-full360-review-first-impressions.html http://blog.aggregateknow

2014-03-17 22:39:12 416

翻译 redshift 常用操作补记

原文:http://dailytechnology.net/2013/08/03/redshift-what-you-need-to-know/

2014-03-17 22:30:12 2049

翻译 用redshift加速 Speeding things up with Redshift

原文地址:http://word.bitly.com/post/48854093418/speeding-things-up-with-redshift bitly公司应用redshift的心得 最开心的事  性能好,文档全(最好补点工作机制的文档),费用低还能扩展 最郁闷的事 1. 不支持json格式,刚开始用python转(太慢了),后来不得不在hadoop上做转化 2. 只支持3

2014-03-17 21:57:09 277

翻译 redshift中多sort key的优点和注意事项

原文: http://aws.amazon.com/articles/8341516668711341 译注:大多数内容在redshift 官方 开发者手册中均有提及,在此就不记录了。写一些这篇文章中特别指出的。 sort key的选择 sort key可以选择多个,使用时候类似联合索引,仅在前几个字段匹配时生效。作者指出如果多sort key的第一个key非常分散,再增加多个sort ke

2014-03-17 21:36:24 561

翻译 【中文摘要】redshift性价比 Redshift Performance & Cost

http://nerds.airbnb.com/redshift-performance-cost/

2014-03-17 21:10:37 349

翻译 【中文摘要】用Redshift驱动交互式数据分析 Powering Interactive Data Analysis by Redshift

redshift是亚马逊aws平台的新数据仓库数据库,pinterst使用redshift作为数据仓库底层OLAP查询引擎得到了很大的性能提升。本文介绍了在使用redshift过程中的一些心得。

2014-03-17 18:49:11 691

原创 用hive工具处理日志产生会话信息

原始日志是用户的行为,按照用户和时间排序。我们将事件按间隔时间分成不同的会话,分析用户的会话行为。 hive中支持udf创建自定义函数。我们利用此功能来实现从原始记录产生会话。 例如原始数据如下: uid    timestamp 1       1000 1       1250 1       2200 1       5000 2       2000 2       25

2014-02-13 10:42:21 304

原创 python pandas库的应用(类比mysql语言)

pandas和sql语言对比 create table 我们尝试创建一张表,保存每天的三个值 In [6]: from pandas import * import numpy as np randn = np.random.randn random_integers = np.random.random_integers # create table df (id

2014-01-03 10:55:23 800

原创 ipython notebook安装(ubuntu环境)

1.      安装ipython-notebook 如果需要在virtualenv内运行,先安装virtualenv环境,然后运行pipinstall ipython 2.      启动ipython notebook ipython notebook 3.      安装matplotlib a)        安装zlib(libpng需要)sudo apt-get instal

2014-01-03 10:50:37 1848

原创 killed process -- meet oom killer

Killed process Last Saturday, one important process waskilled by system. It happened for second time. I admit the server was using lotsmemory that time. But I still want to tell system the process is

2013-09-09 14:19:31 326

原创 ubuntu gnome terminal无法使用sz下载文件解决方法

gnome terminal在多跳登录到远端ssh主机时,scp很麻烦,还是用sz省事。但是默认terminal不支持zmodem,所以可以用screen解决这个办法。 1 先安装一个screen包 2 screen -S download 3 Ctrl+a再输入:进入screen命令行,输入zmodem catch修改zmodem模式为catch 4 登录到远端,直接用sz filena

2013-08-05 16:19:23 933

原创 ThinkPad E40上用U盘安装Windows XP

今天拿到一台E40光驱残废,需要安装windows xp系统,着实费力,特别记录下来。一开始用大白菜工具做了番茄花园,深度等著名厂出的iso,结果凡是基于gho复制的都报错:ntdlr is missing 而基于xp官方盘(包括官方盘本身)也报错:inf file txtsetup sif is corrupt or missing status 18 比较广泛的做法是用win pe启动,

2013-07-22 18:41:15 431

原创 hive 中的空值判断

注意用if ( NULL is NULL, True, False) 方式,而非常用=方式

2013-04-15 15:30:02 778

原创 python闭包和nonlocal关键字 -- PEP 3104笔记

python闭包 在计算机科学中,闭包(Closure)是词法闭包(Lexical Closure)的简称,是引用了自由变量的函数。这个被引用的自由变量将和这个函数一同存在,即使已经离开了创造它的环境也不例外。所以,有另一种说法认为闭包是由函数和与其相关的引用环境组合而成的实体。 举个例子来说: def outer(v1): def inner(): print

2013-04-02 18:21:11 621

原创 Python默认参数的一个陷阱

代码的例子: >>> def f(n=[]): ... n.append(1) ... print n ... >>> f() [1] >>> f() [1, 1] >>> f() [1, 1, 1] >>> Python的默认参数如果设置成可变类型,那么结果是下次引用的将是修改过的可变参数 原因:函数对象的默认参数时作为对象属性存储的,而且只进行一次初始化,所以

2013-04-02 14:05:26 347

原创 用代理方式实现android系统抓包

调试android应用的网络交互时,常常希望看到网络包的交互过程。而在破解app时也经常希望看到网络交互过程的抓包。之前的思路一直是在手机上安装抓包软件,这种方式实时性不好而且分析能力有限。有天看到测试组的MM用一个简洁的方式解决的这个问题,很巧妙,特记录下分享。 1 设置手机上的代理到pc电脑的端口8888 可以再系统中设置。有个软件是autoproxy可以设置多个代理的切换,很好用

2013-03-30 16:20:24 3618

原创 python tricks

python tricks大多数都和python一切均对象,对象均可修改的灵活性有关。http://www.rafekettler.com/magicmethods.html Meta Class http://stackoverflow.com/questions/100003/what-is-a-metaclass-in-python 动态继承 一种改变类的base

2013-03-28 17:17:04 152

原创 jailkit

create a limit command console using jailkit

2013-03-22 15:28:43 114

原创 unix文件的时间

http://www.brandonhutchinson.com/ctime_atime_mtime.html chown 不会修改mtime

2013-03-22 10:55:46 314

原创 mysql 两种主从同步方式在执行跨库语句时的不同

https://dev.mysql.com/doc/refman/5.1/en/replication-options-slave.html#option_mysqld_replicate-do-db

2013-03-22 10:20:41 157

原创 dhcp环境中如何指定dns server

http://www.noah.org/wiki/Resolv.conf

2013-03-22 09:19:11 615

原创 夏令时切换时脚本的不同反应

夏令时切换时脚本的不同反应

2013-03-11 16:39:07 182

原创 ec2上启动ebs的instance时显示cloudimg-rootfs does not exist

console报错信息: Gave up waiting for root device.  Common problems:  - Boot args (cat /proc/cmdline)    - Check rootdelay= (did the system wait long enough?)    - Check root= (did the system wait for

2013-03-11 15:14:14 338

原创 pep8 常见不规范纠正

pep8 常见不规范纠正

2013-03-01 15:51:35 166

原创 mysql中文问题:api访问正常,命令行显示问号

用python sqlalchemy进行开发时,发现在命令行查询中文字段显示的都是问号,心想有碰到默认latin编码的问题了。开始时候思维定势的从编程接口查,无果。后来才发现从编程接口可以取出来正常的中文,才开始关注是命令行编码的问题。参考stackoverflow,在命令行中输入 SET NAMES utf8 恢复正常,索性将默认字符集设置为utf8 [mysqld] collation-

2013-02-27 14:37:09 343

原创 Amazon EC2: create a ebs boot instance

to write reference: http://www.capsunlock.net/2009/12/create-ebs-boot-ami.html https://forums.aws.amazon.com/thread.jspa?messageID=155756 http://www.elastician.com/2009/12/creating-ebs-backed-

2013-02-25 17:02:28 154

原创 素材库

unix command 'yes' {} use in command like mkdir -p /tmp{1,2}

2013-02-22 17:18:42 176

原创 MediaWiki防止恶意修改及被恶意修改后的回滚修复

MediaWiki如果按照默认设置的话,用户可以自由注册,并且匿名修改,这常被bot程序用来恶意修改成广告等垃圾页面。 首先,修改LocalSettings.php页面,加入限制: # The following permissions were set based on your choice in the installer $wgGroupPermissions['*']['creat

2012-10-08 15:29:12 567

原创 Hive某些版本在查询多个小文件组成的hive表时时间超长

keywords: hive, slow query, many splits, inputformat level: high evidence: different version hive compare: 1 node, select count(1) from t, time less than 2 nodes, same query (t contains about 10

2012-06-19 17:52:04 594

原创 hadoop在reduce阶段出现DataXceiver数量的报错

keywords: hive query error, reduce phase error, datanote error level: critical evidence: execute large overwrite operation, aborting in reduce phase ==datanote== 2012-06-14 22:42:33,445 ERROR org

2012-06-19 17:50:33 1126

原创 Hadoop Mapreduce作业在reduce阶段出现Too may files 错误

key words: DataXceiverServer, Too many open files, ulimit level: critical evidence: ==datanode== 2012-06-14 04:13:54,011 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(

2012-06-19 17:48:43 706

原创 使用sqoop工具进行数据表增量导入

sqoop工具是hadoop环境下连接关系数据库和hadoop存储系统的桥梁,支持多种关系数据源和hive,hbase表格的相互导入。 一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入。如果数据表较大,我们通常不可能每次都进行全表的导入。幸运的是,sqoop提供了增量导入数据的机制。下面就以mysql数据表为例,看一个例子。 假设在本地假设了Mysql服务器,我们需要每天从

2012-06-05 17:16:32 5959 1

原创 [Hive on HBase] HBase从单点到集群

HBase默认安装只是在单个节点,能力有限,很难满足hive批量大数据的处理要求。我们需要把hbase扩展为多节点的集群。 首先,HBase依靠Zookeeper来获得集群节点信息,默认情况,zookeeper已经和hbase绑定了,只需要在hbase-site里配置好集群就可以。先停止hbase,然后修改配置文件: hbase.rootdir:hbase在hdfs中存储路径 dfs.r

2012-05-31 19:03:23 957

原创 Ubuntu系统更换网卡后找不到网卡的解决

最近服务器检修,更换了主板硬件,用老的硬盘进入系统以后,发现只有本地回路,eth网卡所有都不见了。 查了一下,ubuntu会将网卡的MAC信息写在/etc/udev/rules.d/70-persistent-net.rules这个文件中。更换了网卡后MAC地址变了,于是用老的配置文件就不能正确识别出新的网卡了。 简单的方法就是删除这个文件,重启系统。 参考:http://www.orzes

2012-05-31 14:35:37 2635

windows7 天气修复补丁

Windows7 提供了很多很好的桌面小工具,比如时钟,日历。但是当我们使用天气工具时,常常会发现天气小工具不能使用,还会出现这样的提示:该地区的服务无法启用。这是由于天气小工具不能访问国外的网站来获得天气信息造成的。 胶囊软件修正了这个程序,并且在此基础上添加了湿度和风向显示。使得这个工具更加完美。 下载软件包,直接安装即可解决。

2010-04-12

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除