hadoop
文章平均质量分 55
lifeiaidajia
这个作者很懒,什么都没留下…
展开
-
各种sql语句在hadoop pig中的实现
我这里以Mysql 5.1.x为例,Pig的版本是0.8 同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下: tmp_file_1:Txt代码 zhangsan 23 1 lisi 24 1 wangmazi 30 1 meinv转载 2013-02-20 14:03:48 · 3548 阅读 · 0 评论 -
Hadoop的Python框架指南
转载,原文地址:http://www.oschina.net/translate/a-guide-to-python-frameworks-for-hadoopHadoop的Python框架指南最近,我加入了Cloudera,在这之前,我在计算生物学/基因组学上已经工作了差不多10年。我的分析工作主要是利用Python语言和它很棒的科学计算栈来进行的。但Apache原创 2013-03-12 13:29:23 · 5472 阅读 · 0 评论 -
Mrjob介绍 (hadoop with python)
什么是mrjob一个通过hadoop、emr的mapreduce编程接口(streamming),扩展出来的一个python的编程框架。安装先安装python 2.5+版本(对应0.4)线上目前版本:python 2.6.8调度机安装mrjob即可:http://pythonhosted.org/mrjob/guides/quickstart.html 具体安装方法原创 2013-11-04 11:19:02 · 7980 阅读 · 0 评论 -
python hadoop 在streaming中获取文件名的方法 (参考java )适用: MRjob
在hadoop的开发中,经常要根据streaming中不同的文件名做不同的处理,需要获取文件名。1,hadoop上在java开发可用:FileSplit fileSplit = (FileSplit)reporter.getInputSplit();String fileName = fileSplit.getPath().getName();来获取文件名称。,2原创 2013-11-06 11:46:32 · 7720 阅读 · 0 评论 -
给mrjob的python脚本加map reduce 个数限制 和 hadoop任务调度优先级
如:python ${ReportDailyPyFile} ${pystr} --jobconf mapreduce.job.priority=VERY_HIGH --jobconf mapred.map.tasks=20 --jobconf mapred.reduce.tasks=5>> ${sequencelog} 2>&1hadoop任务调度优先级:--job原创 2013-12-30 11:42:30 · 3089 阅读 · 0 评论