匹配一行中两个单词之间的内容(后续)
之前我写我一篇日志叫“匹配一行中两个单词之间的内容”,这个可以算是那个的后续吧!因为我要从http://www.361way.com/sitemap.xml这个地图链接里找出我的所有url地址。于是又用到了sed的正则。
http://www.361way.com/wordpress-zaiyao/74.html
2011-08-16T07:57:45+00:00
monthly
0.2
http://www.361way.com/wordpress-link/98.html
2011-08-16T07:55:27+00:00
monthly
0.2
而我要取得的值便是和之间的内容。于是我先执行curl "http://www.361way.com/sitemap.xml"|grep ""先把所有的行过滤出来,然后再通过sed把前面的和过滤掉。首先可以sed -e进行多语句过滤:
curl "http://www.361way.com/sitemap.xml"|grep ""|sed -e 's///g' -e 's///g' ,但这样感觉太累人。和后面加两个sed 过滤首 |sed 过滤尾 没什么分别。后来又偿试把两个条件通过[,]这样加入,发现把所有的/也给过滤了,接着试(),(),又试着加双引号指定……总之,N种尝试都未得到要得到的结果。才发现把正则忘的差不多了,这么简单的问题竞搞的这么难搞等。索性静下心来再把原来的文档翻过来看下。呵呵,发现了一个很有用的符号“|”(逻辑或)。
于是curl "http://www.361way.com/sitemap.xml"|grep ""|sed 's/|//g'搞定。当然,如果想把http://www.也过滤掉就再改下curl "http://www.361way.com/sitemap.xml"|grep ""|sed 's/http://www.|//g' 。
逻辑与 (and) (顺便再补一点逻辑与的东西吧)
查找文档b中同时包含one和three的行
b.txt的内容
one two three
four five six
one two
one seven three
gawk "/one/&&/three/" b.txt
sed -ne '/one/{/three/p}' b.txt
正则表达式在具体到某个工具的时候,又会有细微的差别,如在sed中&保存搜索字符用来替换其他字符,如s/love/**&**/,love这成**love**。
写在最后:看来学好正则表达式的基础很重要。因为awk 、sed、grep ,perl甚至连vi都是使用的相同正则标准。因此,想学好这几个工具的使用。正则的基础一定是要打好。
其实本文也只是一个衔接的文章,因为我之前写过一个用vbs刷网站流量的日志。(不过好像那个文章加密了。)因为要再写一个linux下通过curl刷网站流量的文章,便用到了先用curl、sed获取站点所有地址。