curl cat grep awk

[root@192 home]# cat fozhidao.sh 
#curl https://www.yourenxsw.com/novel/22220/ > main.txt
#cat main.txt | grep href
#cat main.txt | grep href > href.txt


curl https://fozhidao.cc/book/56302276 | iconv -f gbk -t utf8 > fozhidao.txt  
cat fozhidao.txt | grep "\.html" 
cat fozhidao.txt | grep "\.html" | awk -F'"' '{ print $2 " " $3 }' | sed "s:</a></dd>::g" | sed "s:>::g" 

## shell字符串截取八种方法

假设有变量: var=http://www.aaa.com/123.htm

1. # 号截取,删除左边字符,保留右边字符。
代码如下:

echo ${var#*//}
其中 var 是变量名,# 号是运算符,*// 表示从左边开始删除第一个 // 号及左边的所有字符
即删除 http://
结果是 :www.aaa.com/123.htm

2. ## 号截取,删除左边字符,保留右边字符。
代码如下:

echo ${var##*/}
##*/ 表示从左边开始删除最后(最右边)一个 / 号及左边的所有字符
即删除 http://www.aaa.com/

结果是 123.htm

3. %号截取,删除右边字符,保留左边字符
代码如下:

echo ${var%/*}
%/* 表示从右边开始,删除第一个 / 号及右边的字符

结果是:http://www.aaa.com

4. %% 号截取,删除右边字符,保留左边字符
代码如下:

echo ${var%%/*}
%%/* 表示从右边开始,删除最后(最左边)一个 / 号及右边的字符
结果是:http:

5. 从左边第几个字符开始,及字符的个数
代码如下:

echo ${var:0:5}
其中的 0 表示左边第一个字符开始,5 表示字符的总个数。
结果是:http:

6. 从左边第几个字符开始,一直到结束
代码如下:

echo ${var:7}
其中的 7 表示左边第8个字符开始,一直到结束。
结果是 :www.aaa.com/123.htm

7. 从右边第几个字符开始,及字符的个数
代码如下:

echo ${var:0-7:3}
其中的 0-7 表示右边算起第七个字符开始,3 表示字符的个数。
结果是:123

8. 从右边第几个字符开始,一直到结束
代码如下:

echo ${var:0-7}
表示从右边第七个字符开始,一直到结束。
结果是:123.htm
————————————————
版权声明:本文为CSDN博主「戴国进」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/JineD/article/details/124196546

shell脚本:

#curl https://www.yourenxsw.com/novel/22220/ > main.txt
#cat main.txt | grep href
#cat main.txt | grep href > href.txt

URL_PREFIX="https://fozhidao.cc"

#curl https://fozhidao.cc/book/56302276 | iconv -f gbk -t utf8 > fozhidao.txt  
#cat fozhidao.txt | grep "\.html" 
#cat fozhidao.txt | grep "\.html" | awk -F'"' '{ print $2 " " $3 }' | sed "s:</a></dd>::g" | sed "s:>::g" > pairs.txt
#cat fozhidao.txt | grep "\.html" | awk -F'=' '{ print $2 }' | awk -F'<' '{ print $1 }' >pairs2.txt

cat fozhidao.txt | grep "\.html" | awk -F'=' '{ print $2 }' | awk -F'<' '{ print $1 }'  | sed "s:\"::g" >pairs2.txt

i=0
for line in `cat pairs2.txt`
do
    ((i++))
    url=${line%>*}
    title=${line#*>}
    echo "$i:$line $url $title"
    curl $URL_PREFIX$url | iconv -f gbk -t utf8 > $title.txt
done


 

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值