python-27：如何获取多个页面的源码

最新推荐文章于 2023-03-24 12:03:59 发布

weixin_33800593

最新推荐文章于 2023-03-24 12:03:59 发布

阅读量272

点赞数

文章标签： python

原文链接：https://my.oschina.net/u/2429887/blog/535860

版权

2019独角兽企业重金招聘Python工程师标准>>>

在这里先给大家推荐一个网站：
http://www.tutorialspoint.com/python/
这是一个英文的网站，现在也是时候开始看看这些英文的文档了，这个文档是python的一个简短的教程，会包含一些函数原型，我是在查询函数原型的时候看到的

闲话不多说，我们再来看看极视界的网址

http://product.yesky.com/more/506001_31372_photograph_1.shtml

这个photograph_1，引起了我的注意，它是不是还有很多页，既然说到了就来试一下

http://product.yesky.com/more/506001_31372_photograph_2.shtml

这个页面也是可以打开的，那么问题来了，总共有多少页呢？
这个还真不知道，但是我在想着怎么能获取前面十页网页的源码，或许我应该说得再具体一点
我想要看看前面10页一共有多少相册，并把相册名字输出出来，这需要两个步骤
1. 爬取前面10页的网页源码
2. 使用RE将相册名字获取出来

使用RE相信已经很熟练了，那就来说说怎么爬取前面10页的网页代码吧

首先我得想一个办法把网址当中的1，2，3......在程序中实现自动替换，那么我第一步应该尝试怎么能依次输出1到10这几个数字，上网去查发现有好多种方法，有使用循环，使用遍历的方法，但是我更加倾向于使用range()这个函数，大家可以去查查range()函数的用法，这里不做过多的说明，还是那句话，多看几个网页，会有更多收获

range()函数的参数
1. start:计数从start开始。默认是从0开始。例如range（5）等价于range（0， 5）;
2. end:计数到end结束，但不包括end.例如：range（0， 5）是[0, 1, 2, 3, 4]没有5
3. scan：每次跳跃的间距，默认为1，例如：range（0， 5，2）是[0，2，4]

好了，使用range()函数和字符串的拼接，我们大概可以实现这个功能，试试看吧

#!/usr/bin/env python
# -*- coding: UTF-8 -*-
__author__ = '217小月月坑'

# 将url拆成两部分，在这个部分的后面加上页数即可访问相应的页面
url_head = 'http://product.yesky.com/more/506001_31372_photograph_'

# 遍历 range()列表里面的元素，由于range()不包含结束的数值，所以我们要获取
# 10页，这个end就要写成11
for i in range(1,11):
    url = url_head+str(i)+'.shtml'    
    print url

输出结果：

把这个功能加到我们原来的代码中应该是这样的

#!/usr/bin/env python
# -*- coding:UTF-8 -*-
__author__ = '217小月月坑'

import urllib2
import re

url_head = 'http://product.yesky.com/more/506001_31372_photograph_'
user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0'
headers = {'User-Agent':user_agent}

try:
    # 设置第1页到第10页的网址
    for i in range(1,11):
        url = url_head+str(i)+'.shtml'
        print url
        request = urllib2.Request(url,headers=headers)
        response = urllib2.urlopen(request)
        # 对获取的网页源码进行编码
        conents = response.read().decode("gbk")
        # 使用RE获取每一页的相册主页和相册名字
        pattern = re.compile(r'<dt><a href="(.*?)" title="(.*?)"',re.S)
        items = re.findall(pattern,conents)
        for item in items:
            print item[0],item[1]
except urllib2.URLError,e:
    if hasattr(e,"code"):
        print e.code
    if hasattr(e,"reason"):
        print e.reason

输出结果：