python网络爬虫-通过互联网采集

     在你写爬虫随意跟随外链跳转之前,请问自己几个问题:

    (1)我们要收集哪些数据?这些数据可以通过采集几个已经确定的网站(永远是最简单的做法)完成吗?或者我的爬虫需要发现那些我可能不知道的网站。

     (2)当我的爬虫到了某个网站,它是立即顺着下一个出站链接跳到一个新网站,还是在网站上呆一会,深入采集网站的内容?

      (3)如果我的网络爬虫引起了某个网站网管的怀疑,我如何避免法律责任?

     几个灵活的Python函数组合起来就可以实现不同类型的网络爬虫。用不超过50行代码就可以轻松写出来:

from urllib.request import urlopen
from bs4 import BeautifulSoup
import re
import datetime
import random
pages=set()
random.seed(datetime.datetime.now())

#获取页面所有内链的列表
def getInternalLinks(bsObj,includeUrl):
    internalLinks=[]
    #找出所有以“/”开头的链接
    for link in bsObj.findAll("a",href=re.compile("^(/|.*"+includeUrl+")")):
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in internalLinks:
                internalLinks.append(link.attrs['href'])
    return internalLinks

#获取页面所有外链的列表
def getExternalLinks(bsObj,excludeUrl):
    externalLinks=[]
    #找出所有以“/”开头的链接
    for link in bsObj.findAll("a",href=re.compile("^(http|www)((?!"+excludeUrl+").)*$")):
        if link.attrs['href'] is not None:
            if link.attrs['href'] not in externalLinks:
                externalLinks.append(link.attrs['href'])
    return externalLinks

def splitAddress(address):
    addressParts=address.replace("http://","").split("/")
    return addressParts

def getRandomExternalLinks(startingPage):
    html=urlopen(startingPage)
    bsObj=BeautifulSoup(html,"html.parser")
    externalLinks=getExternalLinks(bsObj,splitAddress(startingPage)[0])
    if len(externalLinks) == 0:
        internalLinks=getInternalLinks(startingPage)
        return getNextExternalLink(internalLinks[random.randint(0,len(internalLinks)-1)])
    else:
        return externalLinks[random.randint(0,len(externalLinks)-1)]

def followExternalOnly(startingSite):
    extenalLink=getRandomExternalLink("http://oreilly.com")
    print("随机外链是:"+externalLink)
    followExternalOnly(externalLink)

followExternalOnly("http://oreilly.com")

     网站首页上并不能保证一直能发现外链,这是为了能够发现外链,就需要一种类似前面案例中使用的采集方法,即递归地深入一个网站直到找到一个外链才停止。下图是从互联网上不同的网站采集外链的程序流程图


     把任务分解为像“获取页面上所有外链“这样的小函数是不错的做法,以后可以方便地修改代码以满足另一个采集任务的需求。例如,如果我们的目标是采集一个网站所有的外链,并且记录每一个外链,我们可以增加下面的函数:

#收集网站上发现的所有外链列表
allExtLinks=set()
allIntLinks=set()
def getAllExternalLinks(siteUrl):
     html=urlopen(siteurl)
     bsObj=BeautifulSoup(html,"html.parser")
     internalLinks=getInternalLinks(bsObj,splitAddress(siteUrl)[0])
      externalLinks=getExternalLinks(bsObj,splitAddress(siteUrl)[0])
      for link in externalLinks:
           allExtLinks.add(link)
           print(link)
      for link in internalLinks:
           if link not in allIntLinks:
                print("即将获取连接的URL是"+link)
                allIntLinks.add(link)
                getExternalLinks(link)

getAllExternalLinks("http://oreilly.com")
    这段程序可以看做两个循环--一个收集内链,一个是收集外链--然后彼此连接起来工作,程序流程图如下:



  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值