Spark进行一些控制、行动操作练习,并查阅源码加深理解

1.数据来源于搜狗实验室
数据为2006年8月份的日志数据

2.大致查看下包内文件 tar -ztf SogouQ.tar.gz

root@host1:/usr/wh# tar -ztf SogouQ.tar.gz
SogouQ/
SogouQ/access_log.20060801.decode.filter
SogouQ/access_log.20060802.decode.filter
SogouQ/access_log.20060803.decode.filter
SogouQ/access_log.20060804.decode.filter
SogouQ/access_log.20060805.decode.filter
SogouQ/access_log.20060806.decode.filter
SogouQ/access_log.20060807.decode.filter
SogouQ/access_log.20060808.decode.filter
SogouQ/access_log.20060809.decode.filter
SogouQ/access_log.20060810.decode.filter

3.解压上传至hdfs

  • tar -zxf SogouQ.tar.gz
  • sudo -uhdfs hdfs dfs -mkdir -p /user/test/test_data/sougou
  • 上传数据sudo -uhdfs hdfs dfs -put /tmp/tmp2018511/access_log.20060801.decode.filter /user/test/test_data/sougou
  • 报错:有一台datanode的50010拒绝访问【0010是datanode用于数据交换的服务端口】
    java.io.IOException: Got error, status message , ack with firstBadLink as 172.**.***.**:50010
    注意,这里仅一台机器报错,不代表文件上传失败,只能说拒绝连接的那台datanode上没有副本

    1. 查看了已添加的Iptables规则iptables -L -n -v,50010并未开放
    2. 添加规则,并指定可以链接的IP地址:
      iptables -A INPUT -p tcp --dport 50010 -s 172.**.***.** -j ACCEPT
      /etc/rc.d/init.d/iptables save
      service iptables restart

      尝试只开放INPUT,失败,加上OUTPUT,仍然失败
    3. 删除刚才添加的规则:
      iptables -L -n --line-numbers【将所有iptables以序号标记显示】
      iptables -D INPUT 7【删除INPUT中的7】
    4. 尝试使用-p all
      iptables -A INPUT -p all -s 172.**.***.** -j ACCEPT
    5. 再次上传仍然失败,TODO【暂时关闭防火墙,上传完毕再打开】
-A -I -p –dport -s -j
于规则链末尾追加规则 指定序号添加规则,默认为1,也就是规则链的最前面 代表协议类型,比如tcp,udp,icmp等等,忽略的话,则允许所有协议。也可以使用-p all 端口号 指定source address 表示匹配时如何做,是DROP则拒绝访问,ACCEPT允许链接

INPUT 表示”别人”对“我”的访问,OUTPUT表示“我”的输出

可惜,数据和官方说明的格式对不上,但是搜狗新闻数据又是一堆小文件。先不管了,先用着

# 这是日志数据
6383203565086312    [bt????]    8 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值