1.数据来源于搜狗实验室
数据为2006年8月份的日志数据
2.大致查看下包内文件 tar -ztf SogouQ.tar.gz
root@host1:/usr/wh# tar -ztf SogouQ.tar.gz
SogouQ/
SogouQ/access_log.20060801.decode.filter
SogouQ/access_log.20060802.decode.filter
SogouQ/access_log.20060803.decode.filter
SogouQ/access_log.20060804.decode.filter
SogouQ/access_log.20060805.decode.filter
SogouQ/access_log.20060806.decode.filter
SogouQ/access_log.20060807.decode.filter
SogouQ/access_log.20060808.decode.filter
SogouQ/access_log.20060809.decode.filter
SogouQ/access_log.20060810.decode.filter
3.解压上传至hdfs
- tar -zxf SogouQ.tar.gz
- sudo -uhdfs hdfs dfs -mkdir -p /user/test/test_data/sougou
- 上传数据
sudo -uhdfs hdfs dfs -put /tmp/tmp2018511/access_log.20060801.decode.filter /user/test/test_data/sougou
报错:有一台datanode的50010拒绝访问【0010是datanode用于数据交换的服务端口】
java.io.IOException: Got error, status message , ack with firstBadLink as 172.**.***.**:50010
注意,这里仅一台机器报错,不代表文件上传失败,只能说拒绝连接的那台datanode上没有副本- 查看了已添加的Iptables规则iptables -L -n -v,50010并未开放
- 添加规则,并指定可以链接的IP地址:
iptables -A INPUT -p tcp --dport 50010 -s 172.**.***.** -j ACCEPT
/etc/rc.d/init.d/iptables save
service iptables restart
尝试只开放INPUT,失败,加上OUTPUT,仍然失败 - 删除刚才添加的规则:
iptables -L -n --line-numbers
【将所有iptables以序号标记显示】
iptables -D INPUT 7【删除INPUT中的7】
- 尝试使用-p all
iptables -A INPUT -p all -s 172.**.***.** -j ACCEPT
- 再次上传仍然失败,TODO【暂时关闭防火墙,上传完毕再打开】
-A | -I | -p | –dport | -s | -j |
---|---|---|---|---|---|
于规则链末尾追加规则 | 指定序号添加规则,默认为1,也就是规则链的最前面 | 代表协议类型,比如tcp,udp,icmp等等,忽略的话,则允许所有协议。也可以使用-p all | 端口号 | 指定source address | 表示匹配时如何做,是DROP则拒绝访问,ACCEPT允许链接 |
INPUT 表示”别人”对“我”的访问,OUTPUT表示“我”的输出
可惜,数据和官方说明的格式对不上,但是搜狗新闻数据又是一堆小文件。先不管了,先用着
# 这是日志数据
6383203565086312 [bt????] 8