hadoop-python——实现表与表的左连接

本文介绍了如何使用Python在Hadoop环境中实现两个表的左连接操作。通过提供具体的map函数代码示例,展示了处理HDFS中分布式存储的文本数据,确保每行数据格式的一致性,以完成表之间的连接查询。
摘要由CSDN通过智能技术生成

map函数如下:

import sys  
  
for line in sys.stdin:

       line = line.strip()  

       words = line.split()  

       print '%s %s 1' % (words[0],words[1] )
       print '%s %s 2' % (words[1],words[0] )	

reduce函数如下:

#!/usr/bin/env python  

import sys  
  
word_1=[]
word_2=[]
i=1
  
print 'grandChild grandParent'

def printf(word_1,word_2):
    if (len(word_1)!=0) and (len(word_2)!=0):
        for i in range(len(word_1)):
            for j in range(len(word_2)):
                print '%s %s'%(word_2[j][1],word_1[i][1])


for line in sys.stdin:  
    line = line.strip()
    words=line.split()
    if i==1:
        word_temp=words[0]
    if words[0]==word_temp:
        if words[2]=='1':
            word_1.append(words)
        else:
            word
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值