最近在项目中,我希望能通过grep实现从一个html页面中检索出所有的超链接,
比如下面的一段代码
邮 箱 163邮箱 更多 » 视 频 优酷网 土豆网 酷6网 六间房 OpenV天线 激动网 更多 »我希望能一次检索出所有的的信息, 我用的命令如下
C:\tmp>grep -ior "href=.*\/>" a.txt(回车)
结果如下:
邮 箱 163邮箱 雅虎邮箱 126邮箱 新浪邮箱 QQ邮箱 Hotmail 更多 »因为这种模式是贪婪匹配模式。我希望能用非贪婪模式,来进行匹配,方法是通过在*修饰副后面添加\?,修改如下:
C:\tmp>grep -ior "href=.*\?\/>" a.txt
结果如下:
href=mail.htm>邮 箱
163邮箱 雅虎邮箱 126邮箱 新浪邮 QQ邮箱|----------------------------------------------------------------------------------------|
引用请注明来源 http://www.blogjava.net/zhyiwww
|----------------------------------------------------------------------------------------|
posted on 2008-09-26 13:25 zhyiwww 阅读(2804) 评论(1) 编辑 收藏 所属分类: linux