shell脚本 提取网页上面的链接

方法一:

1.提取网页源码 重定向到txt文件

wget http://www.hdu.edu.cn > index.txt

2.正则表达式提取链接

grep -o "\"http.*\"" index.txt > search.txt

\   转义符号   

\"   转义"

.匹配单个字符

.*匹配任意字符

正则表达式\"http.*\"

注:不能用^(行起始标记)和$(行尾标记)

 

方法二:

安装lynx:yum install lynx

lynx -dump http://www.hdu.edu.cn >page.txt

lynx命令的-dump选项将网页以ASCII字符的形式下载到文本文件中

这个命令会将所有的超链接(<a href="link">)作为文本输出的页脚列在References标题之下。这就省得我们在用正则表达式单独解析链接了。

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值