一.工具
1.wget
2.curl
3.sed
4.awk
5.lynx
6.grep
二.方法
1.lynx -dump URL #获取文本页面
2.grep关键字
3.sed/awk + 正则表达式 取得连接
4.curl取得页面所有信息(分析连接有效性,设置cookie信息)
5.wget下载资源
三.例子,获取gmail未读邮件
#!/bin/bash
username="@gmail.com"
password=""
curl -u $username:$password --silent "https://mail.google.com/mail/feed/atom" | \
tr -d '\n' | sed 's:</entry>:\n:g' | \
sed 's/.*<title>\(.*\)<\/title>.*<author><name>\([^<])*\)<\/name><email>\([^<]*\)/Author: \2 [\3] \n Subject:\1\n/g'