tar -zxvf sparsehash-0.3.tar.gz 解压
tar czf descfile.tar.gz /data/nfs/crawl/content/202.104.242.8/descfile/2007/04/21/cw010_cont_2* 压缩
sftp fmd@192.168.1.198:/home/fmd/descfile.tar.gz LINUX间拷贝
ll -h 列表形式查看
find . -name "*.dat" -exec awk -F '#-fd-#' '{print $2}' {} /; | xargs ls > /dev/null
find . -name "*.dat" -exec awk -F '#-fd-#' '{if( $3 > 100000) print $0}' {} /; |more
awk -F '#-fd-#' '{s=substr($1,8);i=index(s,"/");print substr(s,1,i-1)}' *.dat | sort | uniq -c | sort -k1,1rn
查看文件数
wc l descfile/2007/05/11/*
sftp crawler@192.168.1.198:/app/soft/crawl/bin/urls_per_site/urls.tar.gz
用sftp下载服务器上的文件
df -h磁盘空间
du -h 查看文件夹内文件占用空间
tail -f manger.log 查看正在产生的日志自动往下
awk -F '#-fd-#' '{s=substr($1,8);i=index(s,"/");print substr(s,1,i-1)}' *.dat | sort | uniq -c | sort -k1,1rn
grep "fetch: connect to.*/[http.*/]" fetcher.log|awk -F "]" '{print substr($4,2)}'|sort |uniq -c
grep "requestURL:.*/[http.*/]" fetcher.log|awk -F "]" '{print substr($4,2)}'|sort |uniq -c
grep "#166#" *|awk -F " #-fd-#" '{s=substr($0,10);i=index(s,"#-fd-#");print substr(s,10,i-10)}'
grep *|awk -F " #-fd-#" '{s=substr($0,10);i=index(s,"#-fd-#");print substr(s,10,i-10)}'
查找文件里内容,以分割符#-fd-#为基点输出想要的结果
grep "#-fd-#" cw011_desc_2*.dat |awk -F " #-fd-#" '{s=substr($0,10);i=index(s,"#-fd-#");print substr(s,10,i-10)}'
awk -F "#-fd-#" '$3 < 5000 {print $1}' *
查找文本里第三个#-fd-# 内容小于5000并打印第一个#-fd-#
ll -S | awk '$5 < 200 {print $5; print "/t"; print $9}'
按大小列出
tar czf descfile.tar.gz /data/nfs/crawl/content/202.104.242.8/descfile/2007/04/21/cw010_cont_2* 压缩
sftp fmd@192.168.1.198:/home/fmd/descfile.tar.gz LINUX间拷贝
ll -h 列表形式查看
find . -name "*.dat" -exec awk -F '#-fd-#' '{print $2}' {} /; | xargs ls > /dev/null
find . -name "*.dat" -exec awk -F '#-fd-#' '{if( $3 > 100000) print $0}' {} /; |more
awk -F '#-fd-#' '{s=substr($1,8);i=index(s,"/");print substr(s,1,i-1)}' *.dat | sort | uniq -c | sort -k1,1rn
查看文件数
wc l descfile/2007/05/11/*
sftp crawler@192.168.1.198:/app/soft/crawl/bin/urls_per_site/urls.tar.gz
用sftp下载服务器上的文件
df -h磁盘空间
du -h 查看文件夹内文件占用空间
tail -f manger.log 查看正在产生的日志自动往下
awk -F '#-fd-#' '{s=substr($1,8);i=index(s,"/");print substr(s,1,i-1)}' *.dat | sort | uniq -c | sort -k1,1rn
grep "fetch: connect to.*/[http.*/]" fetcher.log|awk -F "]" '{print substr($4,2)}'|sort |uniq -c
grep "requestURL:.*/[http.*/]" fetcher.log|awk -F "]" '{print substr($4,2)}'|sort |uniq -c
grep "#166#" *|awk -F " #-fd-#" '{s=substr($0,10);i=index(s,"#-fd-#");print substr(s,10,i-10)}'
grep *|awk -F " #-fd-#" '{s=substr($0,10);i=index(s,"#-fd-#");print substr(s,10,i-10)}'
查找文件里内容,以分割符#-fd-#为基点输出想要的结果
grep "#-fd-#" cw011_desc_2*.dat |awk -F " #-fd-#" '{s=substr($0,10);i=index(s,"#-fd-#");print substr(s,10,i-10)}'
awk -F "#-fd-#" '$3 < 5000 {print $1}' *
查找文本里第三个#-fd-# 内容小于5000并打印第一个#-fd-#
ll -S | awk '$5 < 200 {print $5; print "/t"; print $9}'
按大小列出