- 博客(5)
- 资源 (12)
- 收藏
- 关注
原创 HIVE的几个使用技巧
1.小表在前,大表在后,如果表很小就用mapjoin写JOIN的时候,将小表写在JOIN的前面,这样HIVE就会将小表载入内存,然后扫描大表。如果表足够的小,就使用map join。2.设定map的并发数,保证一次map结束;根据输入数据量估计reduce的tasks数目,并根据运行中间数据情况修正;http://superlxw1234.iteye.com/blog/1582880...
2013-12-27 11:50:07 146
原创 Python批量重命名文件的方法
用到了os的两个接口:1、列出文件夹中的所有文件(也包含目录)os.listdir(path)Return a list containing the names of the entries in the directory given by path. The list is in arbitrary order. It does not include the special en...
2013-12-18 05:30:53 203
原创 Python内置函数map、reduce、filter在文本处理中的应用
文件是由很多行组成的,这些行组成一个列表,python提供了处理列表很有用的三个函数:map、reduce、filter。因此在文本处理中,可以使用这三个函数达到代码的更加精简清晰。这里的map、reduce是python的内置函数,跟hadoop的map、reduce函数没有关系,不过使用的目的有点类似,map函数做预处理、reduce函数一般做聚合。map、reduce、filter在...
2013-12-15 15:31:10 197
原创 chrome自动刷新网页插件:Auto Refresh Plus
Hadoop执行进度日志是在网页上能查看的,为了想要查看最新的进展,经常需要对页面刷新看到最新的数据,于是我一直就是F5刷新啊刷新,今天想到应该有现成的插件能够使用。 在chrome应用商店里面搜索refresh,看到了这么个扩展程序:Auto Refresh Plus 使用方法:设定刷新时间间隔,点start按钮后,自动按时间刷新网页; 设定一下刷新时间...
2013-12-04 10:19:20 15551
原创 MySQL数据导入导出实例教程手册
mysqldump是mysql自带的一个数据导入导出工具,其官方注释为: shell> mysqldump [options] db_name [tbl_name …] shell> mysqldump [options] –databases db_name … shell> mysqldump [options] –all-databases ...
2013-12-03 16:02:02 121
PHP多文件上传类,支持单个和多个文件上传
2011-10-12
一个AJAX代码框架压缩包(用XML返回多个数据、PHP)-可以直接套用
2010-05-11
c++数字图像处理 直方图均衡化 完整代码
2009-05-25
网站开发全手册(SQL,ASP,HTML,CSS,VBSCRIPT等手册,高手一看就知道)
2008-12-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人