用shell脚本爬取网页信息

最新推荐文章于 2023-02-01 21:46:01 发布

weixin_30386713

最新推荐文章于 2023-02-01 21:46:01 发布

阅读量1.3k

点赞数

文章标签： shell 爬虫操作系统

原文链接：http://www.cnblogs.com/wcxy/p/3173407.html

版权

有个小需求，就是爬取一个小网站一些网页里的某些信息，url是带序号的类似的，不需要写真正的spider，网页内容也是差不多的

需要取出网页中<h1></h1>中间的字符串，而且只要第一行，最后带序号写到文件里

我并不是经常写shell的，只想快速达到目的

#!/bin/bash
for ((i=2;i<=100;i=i+1))
do
echo "#############=P$i"
echo "http://.....com/.../level-$i"
wget -O rid-$i.txt http://.....com/.../level-$i 
done

本来想写到一个脚本里，但是发现wget不是组赛式的，没法在wget命令后紧接着处理返回的文件内容，就分两个脚本处理吧

#!/bin/bash
rm -f ridds.txt
for ((i=2;i<=100;i=i+1))
do
echo "$i"
echo "$i">>ridds.txt
grep -E "<h1>(.*)</h1>" rid-$i.txt|head -1|sed 's/<h1>//g'|sed 's/<\/h1>//g'|sed "s/&#8217;/'/g"|sed "s/&#8216;/'/g"|sed "s
/&#8242;/'/g"|sed 's/&#8221;/"/g'>>ridds.txt
done