如何获取python开源_python-27:如何获取多个页面的源码

在这里先给大家推荐一个网站:

http://www.tutorialspoint.com/python/

这是一个英文的网站,现在也是时候开始看看这些英文的文档了,这个文档是python的一个简短的教程,会包含一些函数原型,我是在查询函数原型的时候看到的

闲话不多说,我们再来看看极视界的网址

这个photograph_1,引起了我的注意,它是不是还有很多页,既然说到了就来试一下

这个页面也是可以打开的,那么问题来了,总共有多少页呢?

这个还真不知道,但是我在想着怎么能获取前面十页网页的源码,或许我应该说得再具体一点

我想要看看前面10页一共有多少相册,并把相册名字输出出来,这需要两个步骤

1. 爬取前面10页的网页源码

2. 使用RE将相册名字获取出来

使用RE相信已经很熟练了,那就来说说怎么爬取前面10页的网页代码吧

首先我得想一个办法把网址当中的1,2,3......在程序中实现自动替换,那么我第一步应该尝试怎么能依次输出1到10这几个数字,上网去查发现有好多种方法,有使用循环,使用遍历的方法,但是我更加倾向于使用range()这个函数,大家可以去查查range()函数的用法,这里不做过多的说明,还是那句话,多看几个网页,会有更多收获

range()函数的参数

1. start:计数从start开始。默认是从0开始。例如range(5)等价于range(0, 5);

2. end:计数到end结束,但不包括end.例如:range(0, 5) 是[0, 1, 2, 3, 4]没有5

3. scan:每次跳跃的间距,默认为1,例如:range(0, 5,2)是[0,2,4]

好了,使用range()函数和字符串的拼接,我们大概可以实现这个功能,试试看吧

#!/usr/bin/env python

# -*- coding: UTF-8 -*-

__author__ = '217小月月坑'

# 将url拆成两部分,在这个部分的后面加上页数即可访问相应的页面

url_head = 'http://product.yesky.com/more/506001_31372_photograph_'

# 遍历 range()列表里面的元素,由于range()不包含结束的数值,所以我们要获取

# 10页,这个end就要写成11

for i in range(1,11):

url = url_head+str(i)+'.shtml'

print url

输出结果:

把这个功能加到我们原来的代码中应该是这样的

#!/usr/bin/env python

# -*- coding:UTF-8 -*-

__author__ = '217小月月坑'

import urllib2

import re

url_head = 'http://product.yesky.com/more/506001_31372_photograph_'

user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0'

headers = {'User-Agent':user_agent}

try:

# 设置第1页到第10页的网址

for i in range(1,11):

url = url_head+str(i)+'.shtml'

print url

request = urllib2.Request(url,headers=headers)

response = urllib2.urlopen(request)

# 对获取的网页源码进行编码

conents = response.read().decode("gbk")

# 使用RE获取每一页的相册主页和相册名字

pattern = re.compile(r'

items = re.findall(pattern,conents)

for item in items:

print item[0],item[1]

except urllib2.URLError,e:

if hasattr(e,"code"):

print e.code

if hasattr(e,"reason"):

print e.reason

输出结果:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值