Python 爬取鲁东大学贴吧前十页的网页内容

首先做这项工作的时候需要用F12工具看看网页请求的url

这是进入首页的地址 http://tieba.baidu.com/f?ie=utf-8&kw=%E9%B2%81%E4%B8%9C%E5%A4%A7%E5%AD%A6&fr=search

之后我请求第二页 发现url为 http://tieba.baidu.com/f?kw=%E9%B2%81%E4%B8%9C%E5%A4%A7%E5%AD%A6&ie=utf-8&pn=50&statsInfo=frs_pager

从这里就可以很容易的看出了,多了个pn=50,猜想一下pn=page number的意思,而50则可以猜想为该值为 (请求第几个页面 - 1)*50

为验证猜想,查看第三页的url地址,果然如此

下面上代码:

#-*- coding:UTF-8 -*-
#!/usr/bin/python
'''
Created on 2015-1-20

@author: huangpeng03
'''
import urllib2

'''
爬取鲁东大学百度贴吧前10页的内容
'''
def getLduPage(url,start,end):
    for i in xrange(start,end+1):
        page_num = (i-1)*50     #url中pn参数所对应的值
        curren_url = url+'&pn='+str(page_num)
        html = urllib2.urlopen(curren_url)
        f = open(str(i)+'.ht
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值