java.io.IOException: Broken pipe

最新推荐文章于 2024-08-17 16:33:05 发布

buptsyqx

最新推荐文章于 2024-08-17 16:33:05 发布

阅读量5.2k

点赞数

分类专栏： Hadoop 文章标签：脚本 python hadoop 编程

本文链接：https://blog.csdn.net/syqx3344/article/details/7498438

版权

Hadoop 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

Hadoop Streaming编程：采用Python脚本来编写map和reduce脚本时必须注意对异常情况的处理，比如：

#!/usr/bin/python
import sys
for eachLine in sys.stdin:
    eachLine = eachLine.strip()
    Seg = eachLine.split('\x01')
    if Seg[1]=='rpt_visit'and Seg[3] != '':
        ad_id = Seg[3]
        print '%s\t%d' % (ad_id, 1)
    else:
       pass

以上代码乍看来没有明显问题，但是实际情况中经常出现数据不完整的情况，因此对每一行数据分割之后，在读取数组元素之前，必须先判断数组的长度，否则可能会出现数组越界的异常情况，做如下修改，添加长度判断条件：

       #!/usr/bin/python
import sys
for eachLine in sys.stdin:
    eachLine = eachLine.strip()
    Seg = eachLine.split('\x01')
    if len(Seg) >= 4 and Seg[1]=='rpt_visit'and Seg[3] != '':
        ad_id = Seg[3]
        print '%s\t%d' % (ad_id, 1)
    else:
       pass