shell抓取网页内容--尚未完工

最新推荐文章于 2024-03-14 15:03:58 发布

cmxy44715

最新推荐文章于 2024-03-14 15:03:58 发布

阅读量180

点赞数

     1   #!/bin/bash
     2   #download blogs on csdn
     3   #by iambefu
     4
     5   #first,download table of contents
     6   table_contents_download()
     7   {
     8        for ((i=1;i<=10;i++))      #download the first 10 page
     9        do
    10       url="http://blog.csdn.net/index.html?"
    11       url=$url"page=$i"
    12       curl $url >>csdntb
    13        done
    14        grep "

" -A4 csdntb >csdntb1 #提取关键信息，减少数据量
    15        grep " ]' '{print $3 "@"$2}' | sed -e 's/href=\"/@/' -e 's/\" target/@/'|sort -u |awk -F@ '{print $1"@" $3}'>csdntb2
    16   }
    17
    18   declare -A table_contents[]
    19   blogs_download()
    20   {
    21        i=1
    22        while read line
    23        do
    24        #   blogs_name=$(echo ${line%%@*})
    25       blogs_url=$(echo ${line##*@})
    26       curl $blogs_url -o $i
    27       let i++
    28       sleep 2
    29
    30        done < csdntb2
    31   }
    32   table_contents_download
    33   blogs_download

来自 “ ITPUB博客 ” ，链接：http://blog.itpub.net/29038506/viewspace-766782/，如需转载，请注明出处，否则将追究法律责任。

转载于:http://blog.itpub.net/29038506/viewspace-766782/

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。