首先做这项工作的时候需要用F12工具看看网页请求的url
这是进入首页的地址 http://tieba.baidu.com/f?ie=utf-8&kw=%E9%B2%81%E4%B8%9C%E5%A4%A7%E5%AD%A6&fr=search
之后我请求第二页 发现url为 http://tieba.baidu.com/f?kw=%E9%B2%81%E4%B8%9C%E5%A4%A7%E5%AD%A6&ie=utf-8&pn=50&statsInfo=frs_pager
从这里就可以很容易的看出了,多了个pn=50,猜想一下pn=page number的意思,而50则可以猜想为该值为 (请求第几个页面 - 1)*50
为验证猜想,查看第三页的url地址,果然如此
下面上代码:
#-*- coding:UTF-8 -*-
#!/usr/bin/python
'''
Created on 2015-1-20
@author: huangpeng03
'''
import urllib2
'''
爬取鲁东大学百度贴吧前10页的内容
'''
def getLduPage(url,start,end):
for i in xrange(start,end+1):
page_num = (i-1)*50 #url中pn参数所对应的值
curren_url = url+'&pn='+str(page_num)
html = urllib2.urlopen(curren_url)
f = open(str(i)+'.ht