自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 资源 (1)
  • 收藏
  • 关注

原创 改造Vim成为Java IDE环境

Vim 功能强大,但是原始Vim并没有安装Plugin,所以

2014-04-12 17:44:00 25

翻译 【中文摘要】redshift是如何改变了游戏规则

AWS Redshift: How Amazon Changed The Gamehttp://blog.aggregateknowledge.com/2013/05/16/aws-redshift-how-amazon-changed-the-game/1. 从多年前,当自己写的单机处理程序无法处理大量数据的时候,我们考虑购买商业数据仓库支持(每TB年单位 2万-60万美金每

2014-03-22 00:32:23 70

转载 hive 优化(quora)

http://www.quora.com/Apache-Hive/What-are-the-best-practices-for-using-Hive-What-settings-should-we-enable-most-of-the-time

2014-03-20 00:21:47 62

原创 reshift 实测

single node xlcopy from remote host with hadoop cat method(cross region): PS: not support for copy data from diff bucket147M rows(in a free node): 58m31M rows(in a high load node): 1h35m347M

2014-03-19 21:37:12 74

翻译 【官方文档摘要】redshift faq

原文:http://aws.amazon.com/redshift/faqs/1. 节点数限制默认每区节点数上限为16,增加更多节点需要联系亚马逊2. 可用性问题硬盘错误可能导致性能下降节点错误导致机群有几分钟的不可用扩展机群也会带来几分钟的不可用维护窗口的可用性没有明确说明3. 数据备份数据有2个备份,一个在本地节点,一个是s3快照

2014-03-18 22:33:24 180

翻译 亚马逊reshift初印象

原文:http://www.full360.com/2013/02/14/amazon-redshift-full360-review-first-impressions.html1.  将大表分割会得到很大的加速比1百亿行大表单文件:4小时35分同样文件40份:7分钟2. 可用性问题在单节点当机或维护窗口时间,机群的可用性问题。

2014-03-18 22:28:17 162

翻译 亚马逊培训资料

http://www.slideshare.net/AmazonWebServices/amazon-redshift-best-practiceshttp://www.full360.com/2013/02/14/amazon-redshift-full360-review-first-impressions.htmlhttp://blog.aggregateknow

2014-03-17 22:39:12 75

翻译 redshift 常用操作补记

原文:http://dailytechnology.net/2013/08/03/redshift-what-you-need-to-know/

2014-03-17 22:30:12 1114

翻译 用redshift加速 Speeding things up with Redshift

原文地址:http://word.bitly.com/post/48854093418/speeding-things-up-with-redshiftbitly公司应用redshift的心得最开心的事 性能好,文档全(最好补点工作机制的文档),费用低还能扩展最郁闷的事1. 不支持json格式,刚开始用python转(太慢了),后来不得不在hadoop上做转化2. 只支持3

2014-03-17 21:57:09 171

翻译 redshift中多sort key的优点和注意事项

原文: http://aws.amazon.com/articles/8341516668711341译注:大多数内容在redshift 官方 开发者手册中均有提及,在此就不记录了。写一些这篇文章中特别指出的。sort key的选择sort key可以选择多个,使用时候类似联合索引,仅在前几个字段匹配时生效。作者指出如果多sort key的第一个key非常分散,再增加多个sort ke

2014-03-17 21:36:24 191

翻译 【中文摘要】redshift性价比 Redshift Performance & Cost

http://nerds.airbnb.com/redshift-performance-cost/

2014-03-17 21:10:37 216

翻译 【中文摘要】用Redshift驱动交互式数据分析 Powering Interactive Data Analysis by Redshift

redshift是亚马逊aws平台的新数据仓库数据库,pinterst使用redshift作为数据仓库底层OLAP查询引擎得到了很大的性能提升。本文介绍了在使用redshift过程中的一些心得。

2014-03-17 18:49:11 580

原创 用hive工具处理日志产生会话信息

原始日志是用户的行为,按照用户和时间排序。我们将事件按间隔时间分成不同的会话,分析用户的会话行为。hive中支持udf创建自定义函数。我们利用此功能来实现从原始记录产生会话。例如原始数据如下:uid    timestamp1       10001       12501       22001       50002       20002       25

2014-02-13 10:42:21 224

原创 python pandas库的应用(类比mysql语言)

pandas和sql语言对比create table 我们尝试创建一张表,保存每天的三个值In [6]:from pandas import *import numpy as nprandn = np.random.randnrandom_integers = np.random.random_integers# create table df (id

2014-01-03 10:55:23 726

原创 ipython notebook安装(ubuntu环境)

1.      安装ipython-notebook如果需要在virtualenv内运行,先安装virtualenv环境,然后运行pipinstall ipython2.      启动ipython notebookipython notebook3.      安装matplotliba)        安装zlib(libpng需要)sudo apt-get instal

2014-01-03 10:50:37 1768

原创 killed process -- meet oom killer

Killed processLast Saturday, one important process waskilled by system. It happened for second time. I admit the server was using lotsmemory that time. But I still want to tell system the process is

2013-09-09 14:19:31 222

原创 ubuntu gnome terminal无法使用sz下载文件解决方法

gnome terminal在多跳登录到远端ssh主机时,scp很麻烦,还是用sz省事。但是默认terminal不支持zmodem,所以可以用screen解决这个办法。1 先安装一个screen包2 screen -S download3 Ctrl+a再输入:进入screen命令行,输入zmodem catch修改zmodem模式为catch4 登录到远端,直接用sz filena

2013-08-05 16:19:23 788

原创 ThinkPad E40上用U盘安装Windows XP

今天拿到一台E40光驱残废,需要安装windows xp系统,着实费力,特别记录下来。一开始用大白菜工具做了番茄花园,深度等著名厂出的iso,结果凡是基于gho复制的都报错:ntdlr is missing 而基于xp官方盘(包括官方盘本身)也报错:inf file txtsetup sif is corrupt or missing status 18比较广泛的做法是用win pe启动,

2013-07-22 18:41:15 162

原创 hive 中的空值判断

注意用if ( NULL is NULL, True, False) 方式,而非常用=方式

2013-04-15 15:30:02 198

原创 python闭包和nonlocal关键字 -- PEP 3104笔记

python闭包在计算机科学中,闭包(Closure)是词法闭包(Lexical Closure)的简称,是引用了自由变量的函数。这个被引用的自由变量将和这个函数一同存在,即使已经离开了创造它的环境也不例外。所以,有另一种说法认为闭包是由函数和与其相关的引用环境组合而成的实体。举个例子来说:def outer(v1): def inner(): print

2013-04-02 18:21:11 534

原创 Python默认参数的一个陷阱

代码的例子:>>> def f(n=[]):... n.append(1)... print n... >>> f()[1]>>> f()[1, 1]>>> f()[1, 1, 1]>>> Python的默认参数如果设置成可变类型,那么结果是下次引用的将是修改过的可变参数原因:函数对象的默认参数时作为对象属性存储的,而且只进行一次初始化,所以

2013-04-02 14:05:26 295

原创 用代理方式实现android系统抓包

调试android应用的网络交互时,常常希望看到网络包的交互过程。而在破解app时也经常希望看到网络交互过程的抓包。之前的思路一直是在手机上安装抓包软件,这种方式实时性不好而且分析能力有限。有天看到测试组的MM用一个简洁的方式解决的这个问题,很巧妙,特记录下分享。1 设置手机上的代理到pc电脑的端口8888可以再系统中设置。有个软件是autoproxy可以设置多个代理的切换,很好用

2013-03-30 16:20:24 3396 1

原创 python tricks

python tricks大多数都和python一切均对象,对象均可修改的灵活性有关。http://www.rafekettler.com/magicmethods.htmlMeta Classhttp://stackoverflow.com/questions/100003/what-is-a-metaclass-in-python动态继承一种改变类的base

2013-03-28 17:17:04 71

原创 jailkit

create a limit command console using jailkit

2013-03-22 15:28:43 35

原创 unix文件的时间

http://www.brandonhutchinson.com/ctime_atime_mtime.htmlchown 不会修改mtime

2013-03-22 10:55:46 93

原创 mysql 两种主从同步方式在执行跨库语句时的不同

https://dev.mysql.com/doc/refman/5.1/en/replication-options-slave.html#option_mysqld_replicate-do-db

2013-03-22 10:20:41 44

原创 dhcp环境中如何指定dns server

http://www.noah.org/wiki/Resolv.conf

2013-03-22 09:19:11 154

原创 夏令时切换时脚本的不同反应

夏令时切换时脚本的不同反应

2013-03-11 16:39:07 49

原创 ec2上启动ebs的instance时显示cloudimg-rootfs does not exist

console报错信息:Gave up waiting for root device.  Common problems: - Boot args (cat /proc/cmdline)   - Check rootdelay= (did the system wait long enough?)   - Check root= (did the system wait for

2013-03-11 15:14:14 271

原创 pep8 常见不规范纠正

pep8 常见不规范纠正

2013-03-01 15:51:35 48

原创 mysql中文问题:api访问正常,命令行显示问号

用python sqlalchemy进行开发时,发现在命令行查询中文字段显示的都是问号,心想有碰到默认latin编码的问题了。开始时候思维定势的从编程接口查,无果。后来才发现从编程接口可以取出来正常的中文,才开始关注是命令行编码的问题。参考stackoverflow,在命令行中输入 SET NAMES utf8 恢复正常,索性将默认字符集设置为utf8[mysqld]collation-

2013-02-27 14:37:09 277

原创 Amazon EC2: create a ebs boot instance

to writereference:http://www.capsunlock.net/2009/12/create-ebs-boot-ami.htmlhttps://forums.aws.amazon.com/thread.jspa?messageID=155756http://www.elastician.com/2009/12/creating-ebs-backed-

2013-02-25 17:02:28 53

原创 素材库

unix command 'yes'{} use in command like mkdir -p /tmp{1,2}

2013-02-22 17:18:42 34

原创 MediaWiki防止恶意修改及被恶意修改后的回滚修复

MediaWiki如果按照默认设置的话,用户可以自由注册,并且匿名修改,这常被bot程序用来恶意修改成广告等垃圾页面。首先,修改LocalSettings.php页面,加入限制:# The following permissions were set based on your choice in the installer$wgGroupPermissions['*']['creat

2012-10-08 15:29:12 461

原创 Hive某些版本在查询多个小文件组成的hive表时时间超长

keywords: hive, slow query, many splits, inputformatlevel: highevidence:different version hive compare:1 node, select count(1) from t, time less than2 nodes, same query(t contains about 10

2012-06-19 17:52:04 511

原创 hadoop在reduce阶段出现DataXceiver数量的报错

keywords: hive query error, reduce phase error, datanote errorlevel: criticalevidence:execute large overwrite operation, aborting in reduce phase==datanote==2012-06-14 22:42:33,445 ERROR org

2012-06-19 17:50:33 1016

原创 Hadoop Mapreduce作业在reduce阶段出现Too may files 错误

key words: DataXceiverServer, Too many open files, ulimitlevel: criticalevidence:==datanode==2012-06-14 04:13:54,011 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(

2012-06-19 17:48:43 582

原创 使用sqoop工具进行数据表增量导入

sqoop工具是hadoop环境下连接关系数据库和hadoop存储系统的桥梁,支持多种关系数据源和hive,hbase表格的相互导入。一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入。如果数据表较大,我们通常不可能每次都进行全表的导入。幸运的是,sqoop提供了增量导入数据的机制。下面就以mysql数据表为例,看一个例子。假设在本地假设了Mysql服务器,我们需要每天从

2012-06-05 17:16:32 5649 1

原创 对现有Hive的大表进行动态分区

分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然采用动态分区更为简单方便。- 对现存hive表的分区首先,新建一张我们需要的分区以后的表cre

2012-06-04 11:40:28 2552

原创 [Hive on HBase] HBase从单点到集群

HBase默认安装只是在单个节点,能力有限,很难满足hive批量大数据的处理要求。我们需要把hbase扩展为多节点的集群。首先,HBase依靠Zookeeper来获得集群节点信息,默认情况,zookeeper已经和hbase绑定了,只需要在hbase-site里配置好集群就可以。先停止hbase,然后修改配置文件:hbase.rootdir:hbase在hdfs中存储路径dfs.r

2012-05-31 19:03:23 864

windows7 天气修复补丁

Windows7 提供了很多很好的桌面小工具,比如时钟,日历。但是当我们使用天气工具时,常常会发现天气小工具不能使用,还会出现这样的提示:该地区的服务无法启用。这是由于天气小工具不能访问国外的网站来获得天气信息造成的。 胶囊软件修正了这个程序,并且在此基础上添加了湿度和风向显示。使得这个工具更加完美。 下载软件包,直接安装即可解决。

2010-04-12

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除