使用python语言结合beautifulsoup编写简单的网络爬虫

最新推荐文章于 2022-10-28 17:56:02 发布

xiangrikuidweixiao

最新推荐文章于 2022-10-28 17:56:02 发布

阅读量2.2k

点赞数 3

分类专栏： python 文章标签： python 网络爬虫

本文链接：https://blog.csdn.net/sinat_28058359/article/details/50296193

版权

python 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

最近老师留了一个让编写网络爬虫的作业，语言不限，环境不限，环顾了一下好像用python语言写比较简单一些，因为python有很多的工具包便于网页的爬取，之前毫无python基础，在综合度娘和大神等一系列的帮助下但也还是写了一个能成的出来供大家参考，觉得写完这个自己都进阶了~~~第一篇博文，仅供交流参考，不喜勿喷~
首先，我下的python为python2.7.8，在win7下安装的，强烈建议在Ubuntu&Linux系统下安装和使用都很方便，但觉得大多数人可能还是比较习惯用Windows系统，下面简单说明一下Windows下的安装方法
下载的python原始包里没有beautifulsoup这个包，所以还要安装一个beautifulsoup包；
都安装好了之后，下面我们来讲一下爬虫的基本思路，简单的来说，首先给出一个原始链接，由这个原始链接作为种子，提取这个链接网页里面的所有其他的链接，再将这些链接分别作为种子提取它们当中的链接，周而复始，以此类推，爬虫爬虫，是为了爬取数据用的，我的目的是为了做web搜索引擎的数据爬取子系统，爬来的每一个网页的文本要存成txt格式的便于后面我建立倒排索引，所以我的爬虫其中很重要的一步就是提取出网页里面的有用文本。
首先第一步，我们要用到几个包，beautifulsoup是我们自己下载的，初始python包里没有这个，爬虫系统中，一个一个的链接关系可以看成一个图，在本程序中我们采用广度优先算法来遍历这个图，用到了队列和集合等数据结构
这里要先说一句，我用的是python包里自带的编辑器和编译器，虽然很多人说这个功能不够写强大，但是还是可以凑活用着的，提示效果欠佳，如果在程序的最开头没有设定一下编码方式的话，

# -*- coding:utf-8 -*-

程序每次运行都会出来一个框框让你选择比较麻烦，但如果设定了编码方式，如果想在程序里面输出一些带中文的提示信息，又会出来一些乱七八糟的不知道是哪国语言的东西，大家可以自己试试看两种方法的区别

python的功能强大，语法简单，首先声明一下待爬链接的队列和已爬网页的集合

queue = deque()
visited = set()

可以先给一个链接，输出看一看这个链接里面都有什么东西，格式是什么样的(python里想注释一段代码要用三个单引号括起来，类似C++中 /* */)

#read html code
html = website.read()
print html

可以用beautifulsoup包里的prettify函数格式化输出一下，这里，构造方法里有两个参数，第一个是刚刚读出来的原始类似一个文本一样的东西，第二个参数是为了解决中文乱码的问题，要将这个参数指定一个值，然后再输出

soup = BeautifulSoup(html,from_encoding="gb18030")
print soup.prettify()

可以看到结果和之前相比是不是漂亮了许多！

最后贴上我的代码~

#本程序采用python2.7.8编写，用到了beautifulsoup包，这个包是原始python里面不自带的，要去自行下载
#提取一个网页里所有的文本，存成文本文件，提取一个网页里所有的超链接，加入爬虫队列，过滤掉图片，注意爬到什么时候停止
from bs4 import BeautifulSoup
import urllib2
import time
import re
from collections import deque

queue = deque()#待爬取队列
visited = set()#已爬取集合

#connect to a URL
#入口页面
originalURL = "http://www.hao123.com/?tn=29065018_269_hao_pg"
queue.append(originalURL)#往队尾追加
cnt = 0

#len(queue)<500 cnt<50#这个是为了设置停止条件，当队列不为空且已经爬取的网页数目不多余50个时继续爬取，或者队列待爬取网页数目少于500个时候，继续爬取
#使用BFS爬取网页
while queue and len(queue)<500:
    url = queue.popleft()#出队列
    visited |= {url}  #标记为已访问,已经爬过的不要再爬了，已经在队列中的那就也不要再加了

    #避免程序异常中止, 用try..catch处理异常，这一点很重要。为了增强程序的鲁棒性，我们要捕获错误，如果网页访问出错或者异常就跳过异常，继续执行
    try:
        website = urllib2.urlopen(url)
    except urllib2.HTTPError,e:#是指类似这种异常HTTPError: HTTP Error 502: Bad Gateway
        #print e.code #输出错误码和错误原因
        #print e.reason
        continue
    except urllib2.URLError,e:#URLError是指[Errno 11004] getaddrinfo failed类似这种异常
        #print e.reason
        continue
    #输出已经抓取了几个网页，当前正在抓取哪个网页
    print('已经抓取: ' + str(cnt) + '   正在抓取 <---  ' + url.encode("utf-8"))
    cnt += 1

    #获取文字
    website = urllib2.urlopen(url)#,timeout = 2)
    html = website.read()
    soup = BeautifulSoup(html,from_encoding="gb18030")#指定编码方式，因为网页的编码方式可能不相同，所以为了避免网页中的中文解析时出现乱码，设置一下from_encoding参数
    [script.extract() for script in soup.findAll('script')]#利用这个包先把html里script，style给清理了
    [style.extract() for style in soup.findAll('style')]
    obj = soup.get_text()
    #print obj
    objstr = obj.encode("utf-8")    #这里注意一下，soup.get_text()函数的返回值是unicode编码，而re.sub函数参数类型得是string字符串类型，所以要转换一下
    p = re.compile('\s+')   #用正则表达式去掉多余的回车换行
    new_string = re.sub(p,'',objstr)
    #print new_string

    file = open(str(hash(url)) + ".txt","w+")    #用hash函数命名，这样方便还原
    file.write(new_string)

    #加一个延时~~~~避免过于频繁的访问一个网页被大boss屏蔽掉
    time.sleep(2)

    # 正则表达式提取页面中所有队列, 并判断是否已经访问过, 然后加入待爬队列
    links = re.findall('"((http|ftp)s?://.*?)"', html)    
    if len(links) != 0:#这个网页中有链接，，，
        for link in links:
            haveImg = re.search(".jpg",link[0])
            haveImg1 = re.search(".gif",link[0])
            haveImg2 = re.search(".png",link[0])#为了过滤掉图片设置了这几个变量，穷举的不全面，有待改进
            inside = re.search("xxx.edu.cn",link[0])
            if inside:#只爬取内网中的内容......
                if not haveImg and not haveImg1 and not haveImg2 and link[0] not in visited:
                    if link[0] not in queue:   #队列中没有这个链接再加入，双重保护，使被爬过的网页不再爬
                        queue.append(link[0])
                        #print queue
                        print('加入队列 --->  ' + link[0].encode("utf-8"))#输出这个网页里面所有符合我们要求的链接

需要注意的是，我爬的根节点是学校的内网，没有爬出去学校范围内，一般公开的网站为了防止恶意攻击都会采取反爬虫的措施，所以大家爬的时候最好不要一直爬~~还有一个可能遇到的问题就是，程序运行过程中有时会异常终止，出现类似HTTP 502这种错误码，一般情况下这些都是所爬取网页自身的问题，不是程序的问题，但是为了增加程序的鲁棒性大家也可以试着在编程上解决这个问题，欢迎交流~

代码下载
http://download.csdn.net/detail/sinat_28058359/9459984