【LINUX】shell中模拟爬虫

url_home="http://localhost:8080"
curl ${url_home} -o 1.html
cat 1.html | grep 'href="' | awk -F"\"" '{ print $2 }' >urls.txt
cat 1.html | grep 'href="' | awk -F"\"" '{ print $3 }'  | awk -F"<" '{ print $1 }' | sed "s:>::g"|sed "s: :_:g" > titles.txt
  
# 打开文件1
exec 3< urls.txt
 
# 打开文件2
exec 4< titles.txt
 
# 读取文件1和文件2的内容
while read -u 3 url && read -u 4 title
do
    echo "url: $url"
    echo "title: $title"
    curl "${url_home}/$url" -o "${title}.html"
done
 
# 关闭文件
exec 3<&-
exec 4<&-

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值