方法一:
1.提取网页源码 重定向到txt文件
wget http://www.hdu.edu.cn > index.txt
2.正则表达式提取链接
grep -o "\"http.*\"" index.txt > search.txt
\ 转义符号
\" 转义"
.匹配单个字符
.*匹配任意字符
正则表达式\"http.*\"
注:不能用^(行起始标记)和$(行尾标记)
方法二:
安装lynx:yum install lynx
lynx -dump http://www.hdu.edu.cn >page.txt
lynx命令的-dump选项将网页以ASCII字符的形式下载到文本文件中
这个命令会将所有的超链接(<a href="link">)作为文本输出的页脚列在References标题之下。这就省得我们在用正则表达式单独解析链接了。