- 博客(96)
- 资源 (1)
- 收藏
- 关注
翻译 【中文摘要】redshift是如何改变了游戏规则
AWS Redshift: How Amazon Changed The Gamehttp://blog.aggregateknowledge.com/2013/05/16/aws-redshift-how-amazon-changed-the-game/1. 从多年前,当自己写的单机处理程序无法处理大量数据的时候,我们考虑购买商业数据仓库支持(每TB年单位 2万-60万美金每
2014-03-22 00:32:23
236
转载 hive 优化(quora)
http://www.quora.com/Apache-Hive/What-are-the-best-practices-for-using-Hive-What-settings-should-we-enable-most-of-the-time
2014-03-20 00:21:47
169
原创 reshift 实测
single node xlcopy from remote host with hadoop cat method(cross region): PS: not support for copy data from diff bucket147M rows(in a free node): 58m31M rows(in a high load node): 1h35m347M
2014-03-19 21:37:12
181
翻译 【官方文档摘要】redshift faq
原文:http://aws.amazon.com/redshift/faqs/1. 节点数限制默认每区节点数上限为16,增加更多节点需要联系亚马逊2. 可用性问题硬盘错误可能导致性能下降节点错误导致机群有几分钟的不可用扩展机群也会带来几分钟的不可用维护窗口的可用性没有明确说明3. 数据备份数据有2个备份,一个在本地节点,一个是s3快照
2014-03-18 22:33:24
451
翻译 亚马逊reshift初印象
原文:http://www.full360.com/2013/02/14/amazon-redshift-full360-review-first-impressions.html1. 将大表分割会得到很大的加速比1百亿行大表单文件:4小时35分同样文件40份:7分钟2. 可用性问题在单节点当机或维护窗口时间,机群的可用性问题。
2014-03-18 22:28:17
229
翻译 亚马逊培训资料
http://www.slideshare.net/AmazonWebServices/amazon-redshift-best-practiceshttp://www.full360.com/2013/02/14/amazon-redshift-full360-review-first-impressions.htmlhttp://blog.aggregateknow
2014-03-17 22:39:12
374
翻译 redshift 常用操作补记
原文:http://dailytechnology.net/2013/08/03/redshift-what-you-need-to-know/
2014-03-17 22:30:12
1939
翻译 用redshift加速 Speeding things up with Redshift
原文地址:http://word.bitly.com/post/48854093418/speeding-things-up-with-redshiftbitly公司应用redshift的心得最开心的事 性能好,文档全(最好补点工作机制的文档),费用低还能扩展最郁闷的事1. 不支持json格式,刚开始用python转(太慢了),后来不得不在hadoop上做转化2. 只支持3
2014-03-17 21:57:09
245
翻译 redshift中多sort key的优点和注意事项
原文: http://aws.amazon.com/articles/8341516668711341译注:大多数内容在redshift 官方 开发者手册中均有提及,在此就不记录了。写一些这篇文章中特别指出的。sort key的选择sort key可以选择多个,使用时候类似联合索引,仅在前几个字段匹配时生效。作者指出如果多sort key的第一个key非常分散,再增加多个sort ke
2014-03-17 21:36:24
501
翻译 【中文摘要】redshift性价比 Redshift Performance & Cost
http://nerds.airbnb.com/redshift-performance-cost/
2014-03-17 21:10:37
307
翻译 【中文摘要】用Redshift驱动交互式数据分析 Powering Interactive Data Analysis by Redshift
redshift是亚马逊aws平台的新数据仓库数据库,pinterst使用redshift作为数据仓库底层OLAP查询引擎得到了很大的性能提升。本文介绍了在使用redshift过程中的一些心得。
2014-03-17 18:49:11
649
原创 用hive工具处理日志产生会话信息
原始日志是用户的行为,按照用户和时间排序。我们将事件按间隔时间分成不同的会话,分析用户的会话行为。hive中支持udf创建自定义函数。我们利用此功能来实现从原始记录产生会话。例如原始数据如下:uid timestamp1 10001 12501 22001 50002 20002 25
2014-02-13 10:42:21
275
原创 python pandas库的应用(类比mysql语言)
pandas和sql语言对比create table 我们尝试创建一张表,保存每天的三个值In [6]:from pandas import *import numpy as nprandn = np.random.randnrandom_integers = np.random.random_integers# create table df (id
2014-01-03 10:55:23
770
原创 ipython notebook安装(ubuntu环境)
1. 安装ipython-notebook如果需要在virtualenv内运行,先安装virtualenv环境,然后运行pipinstall ipython2. 启动ipython notebookipython notebook3. 安装matplotliba) 安装zlib(libpng需要)sudo apt-get instal
2014-01-03 10:50:37
1816
原创 killed process -- meet oom killer
Killed processLast Saturday, one important process waskilled by system. It happened for second time. I admit the server was using lotsmemory that time. But I still want to tell system the process is
2013-09-09 14:19:31
285
原创 ubuntu gnome terminal无法使用sz下载文件解决方法
gnome terminal在多跳登录到远端ssh主机时,scp很麻烦,还是用sz省事。但是默认terminal不支持zmodem,所以可以用screen解决这个办法。1 先安装一个screen包2 screen -S download3 Ctrl+a再输入:进入screen命令行,输入zmodem catch修改zmodem模式为catch4 登录到远端,直接用sz filena
2013-08-05 16:19:23
883
原创 ThinkPad E40上用U盘安装Windows XP
今天拿到一台E40光驱残废,需要安装windows xp系统,着实费力,特别记录下来。一开始用大白菜工具做了番茄花园,深度等著名厂出的iso,结果凡是基于gho复制的都报错:ntdlr is missing 而基于xp官方盘(包括官方盘本身)也报错:inf file txtsetup sif is corrupt or missing status 18比较广泛的做法是用win pe启动,
2013-07-22 18:41:15
365
原创 python闭包和nonlocal关键字 -- PEP 3104笔记
python闭包在计算机科学中,闭包(Closure)是词法闭包(Lexical Closure)的简称,是引用了自由变量的函数。这个被引用的自由变量将和这个函数一同存在,即使已经离开了创造它的环境也不例外。所以,有另一种说法认为闭包是由函数和与其相关的引用环境组合而成的实体。举个例子来说:def outer(v1): def inner(): print
2013-04-02 18:21:11
588
原创 Python默认参数的一个陷阱
代码的例子:>>> def f(n=[]):... n.append(1)... print n... >>> f()[1]>>> f()[1, 1]>>> f()[1, 1, 1]>>> Python的默认参数如果设置成可变类型,那么结果是下次引用的将是修改过的可变参数原因:函数对象的默认参数时作为对象属性存储的,而且只进行一次初始化,所以
2013-04-02 14:05:26
323
原创 用代理方式实现android系统抓包
调试android应用的网络交互时,常常希望看到网络包的交互过程。而在破解app时也经常希望看到网络交互过程的抓包。之前的思路一直是在手机上安装抓包软件,这种方式实时性不好而且分析能力有限。有天看到测试组的MM用一个简洁的方式解决的这个问题,很巧妙,特记录下分享。1 设置手机上的代理到pc电脑的端口8888可以再系统中设置。有个软件是autoproxy可以设置多个代理的切换,很好用
2013-03-30 16:20:24
3538
1
原创 python tricks
python tricks大多数都和python一切均对象,对象均可修改的灵活性有关。http://www.rafekettler.com/magicmethods.htmlMeta Classhttp://stackoverflow.com/questions/100003/what-is-a-metaclass-in-python动态继承一种改变类的base
2013-03-28 17:17:04
115
原创 unix文件的时间
http://www.brandonhutchinson.com/ctime_atime_mtime.htmlchown 不会修改mtime
2013-03-22 10:55:46
276
原创 mysql 两种主从同步方式在执行跨库语句时的不同
https://dev.mysql.com/doc/refman/5.1/en/replication-options-slave.html#option_mysqld_replicate-do-db
2013-03-22 10:20:41
117
原创 ec2上启动ebs的instance时显示cloudimg-rootfs does not exist
console报错信息:Gave up waiting for root device. Common problems: - Boot args (cat /proc/cmdline) - Check rootdelay= (did the system wait long enough?) - Check root= (did the system wait for
2013-03-11 15:14:14
312
原创 mysql中文问题:api访问正常,命令行显示问号
用python sqlalchemy进行开发时,发现在命令行查询中文字段显示的都是问号,心想有碰到默认latin编码的问题了。开始时候思维定势的从编程接口查,无果。后来才发现从编程接口可以取出来正常的中文,才开始关注是命令行编码的问题。参考stackoverflow,在命令行中输入 SET NAMES utf8 恢复正常,索性将默认字符集设置为utf8[mysqld]collation-
2013-02-27 14:37:09
321
原创 Amazon EC2: create a ebs boot instance
to writereference:http://www.capsunlock.net/2009/12/create-ebs-boot-ami.htmlhttps://forums.aws.amazon.com/thread.jspa?messageID=155756http://www.elastician.com/2009/12/creating-ebs-backed-
2013-02-25 17:02:28
114
原创 MediaWiki防止恶意修改及被恶意修改后的回滚修复
MediaWiki如果按照默认设置的话,用户可以自由注册,并且匿名修改,这常被bot程序用来恶意修改成广告等垃圾页面。首先,修改LocalSettings.php页面,加入限制:# The following permissions were set based on your choice in the installer$wgGroupPermissions['*']['creat
2012-10-08 15:29:12
536
原创 Hive某些版本在查询多个小文件组成的hive表时时间超长
keywords: hive, slow query, many splits, inputformatlevel: highevidence:different version hive compare:1 node, select count(1) from t, time less than2 nodes, same query(t contains about 10
2012-06-19 17:52:04
559
原创 hadoop在reduce阶段出现DataXceiver数量的报错
keywords: hive query error, reduce phase error, datanote errorlevel: criticalevidence:execute large overwrite operation, aborting in reduce phase==datanote==2012-06-14 22:42:33,445 ERROR org
2012-06-19 17:50:33
1100
原创 Hadoop Mapreduce作业在reduce阶段出现Too may files 错误
key words: DataXceiverServer, Too many open files, ulimitlevel: criticalevidence:==datanode==2012-06-14 04:13:54,011 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: DatanodeRegistration(
2012-06-19 17:48:43
675
原创 使用sqoop工具进行数据表增量导入
sqoop工具是hadoop环境下连接关系数据库和hadoop存储系统的桥梁,支持多种关系数据源和hive,hbase表格的相互导入。一般情况下,关系数据表存在于线上环境的备份环境,需要每天进行数据导入。如果数据表较大,我们通常不可能每次都进行全表的导入。幸运的是,sqoop提供了增量导入数据的机制。下面就以mysql数据表为例,看一个例子。假设在本地假设了Mysql服务器,我们需要每天从
2012-06-05 17:16:32
5871
1
原创 [Hive on HBase] HBase从单点到集群
HBase默认安装只是在单个节点,能力有限,很难满足hive批量大数据的处理要求。我们需要把hbase扩展为多节点的集群。首先,HBase依靠Zookeeper来获得集群节点信息,默认情况,zookeeper已经和hbase绑定了,只需要在hbase-site里配置好集群就可以。先停止hbase,然后修改配置文件:hbase.rootdir:hbase在hdfs中存储路径dfs.r
2012-05-31 19:03:23
923
原创 Ubuntu系统更换网卡后找不到网卡的解决
最近服务器检修,更换了主板硬件,用老的硬盘进入系统以后,发现只有本地回路,eth网卡所有都不见了。查了一下,ubuntu会将网卡的MAC信息写在/etc/udev/rules.d/70-persistent-net.rules这个文件中。更换了网卡后MAC地址变了,于是用老的配置文件就不能正确识别出新的网卡了。简单的方法就是删除这个文件,重启系统。参考:http://www.orzes
2012-05-31 14:35:37
2583
windows7 天气修复补丁
2010-04-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人