用python编写递归爬取多重网址的网站信息

最新推荐文章于 2022-05-27 13:56:59 发布

egowind421

最新推荐文章于 2022-05-27 13:56:59 发布

阅读量808

点赞数

分类专栏： python 文章标签： Python Linux 正则表达式 OS HTML

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

项目组要得到这个http://kalug.linux.org.tw/~shawn/project/thesis/目录网址下面的所有文件以及这个文件目录的下层目录以及更下层目录的文件包括这个，用迅雷，flashget好像都没这样的功能：找到给一个链接，然后再递归爬取这个链接下的所有链接的。
于是自己写了一个，好像还行o(∩_∩)o...呵呵下面是代码，这里主要爬取pdf与doc文件。


# -*- coding: utf-8 -*-
import urlparse,urllib,re,os
"""
this class is mainly used to crawl the deep url in the urls
do this work for 242
"""
class SpiderMulti:

    def read(self,url):
        urlli=self.analy(url)
        urldic = {}
        cutli=urlli[1:]
        for x in cutli:
            urldic.update(x)
        for url in [x.keys()[0] for x in cutli]:
            if self.islink(url,urldic):
                print url
                self.read(url)
            else:
                self.download(url,urldic)


    def analy(self,url):
        urlli=[]
        try:
            html=urllib.urlopen(url).read().split('\n')
            orignalUrl = url    #re.search(r'<h2>(.*?)</h2>',url,re.I|re.DOTALL)
            for eachline in html:
                #print eachline
                currentFind = re.search(r'href="(.*?)"',eachline,re.IGNORECASE|re.DOTALL)
                if currentFind:
                    urldic = {}
                    curUrl = urlparse.urljoin(orignalUrl,currentFind.group(1))
                    dirFind = re.search(r'class="t".*?>(.*?)<',eachline,re.IGNORECASE|re.DOTALL)
                    curDir = dirFind.group(1)
                    urldic[curUrl]=curDir
                    urlli.append(urldic)
        except:
            print 'can not open ',url
            pass

        #print urlli
        return urlli

    def islink(self,url,urldic):
        if urldic[url] == 'Directory':
            return True
        else:
            return False

    def download(self,url,urldic):
        print '=====:',url,urldic[url]
        if (self.isfile(url)):
            name = os.path.join(r'd:\data',url.split('/')[-1])
            print 'dowm:',url,name
            try:
                f=urllib.urlretrieve(url,name)
            except:
                print 'can not writtofile'
                pass

    def isfile(self,url):
        if re.search(r'doc$|pdf$',url,re.IGNORECASE|re.DOTALL):
            return True
        else:
            return False



if __name__=='__main__':
    t=SpiderMulti()
    url='http://kalug.linux.org.tw/~shawn/project/thesis/'
    t.read(url)

解释一下：
1、主函数是read()，在这里面实现递归。

2、analy(url)函数分析传入的url，提取出该页的url链接，当然如果你要用你自己的url这里需要改变的是正则表达式的匹配规则。返回一个列表，列表的元素是字典，key是当前的链接地址，值是该地址对应的类型（这里主要是针对该类网站这样设计的，大家可以打开看看网页
的结果）。

3、islink()函数是判断输入的url是不是目录，如果是则递归执行read()函数

4、download()函数是：输入的链接对应的是个文件，但是不一定是我们想要的pdg或者doc文件，所以先用isfile()函数判断一下，然后再进行下载，完成任务。呵呵

egowind421

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用python编写递归爬取多重网址的网站信息

项目组要得到这个http://kalug.linux.org.tw/~shawn/project/thesis/目录网址下面的所有文件以及这个文件目录的下层目录以及更下层目录的文件包括这个，用迅雷，flashget好像都没这样的功能：找到给一个链接，然后再递归爬取这个链接下的所有链接的。于是自己写了一个，好像还行o(∩_∩)o...呵呵下面是代码，这里主要爬取pdf与doc文件。...
复制链接

扫一扫