Python 爬取鲁东大学贴吧前十页的网页内容

最新推荐文章于 2022-01-02 23:52:21 发布

mustbesomebody

最新推荐文章于 2022-01-02 23:52:21 发布

阅读量1.8k

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/QQ331948781/article/details/42917289

版权

首先做这项工作的时候需要用F12工具看看网页请求的url

这是进入首页的地址 http://tieba.baidu.com/f?ie=utf-8&kw=%E9%B2%81%E4%B8%9C%E5%A4%A7%E5%AD%A6&fr=search

之后我请求第二页发现url为 http://tieba.baidu.com/f?kw=%E9%B2%81%E4%B8%9C%E5%A4%A7%E5%AD%A6&ie=utf-8&pn=50&statsInfo=frs_pager

从这里就可以很容易的看出了，多了个pn=50,猜想一下pn=page number的意思，而50则可以猜想为该值为（请求第几个页面 - 1)*50

为验证猜想，查看第三页的url地址，果然如此

下面上代码：

#-*- coding:UTF-8 -*-
#!/usr/bin/python
'''
Created on 2015-1-20

@author: huangpeng03
'''
import urllib2

'''
爬取鲁东大学百度贴吧前10页的内容
'''
def getLduPage(url,start,end):
    for i in xrange(start,end+1):
        page_num = (i-1)*50     #url中pn参数所对应的值
        curren_url = url+'&pn='+str(page_num)
        html = urllib2.urlopen(curren_url)
        f = open(str(i)+'.ht

最低0.47元/天解锁文章

mustbesomebody

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python 爬取鲁东大学贴吧前十页的网页内容

首先做这项工作的时候需要用F12工具看看网页请求的url这是进入首页的地址 http://tieba.baidu.com/f?ie=utf-8&kw=%E9%B2%81%E4%B8%9C%E5%A4%A7%E5%AD%A6&fr=search之后我请求第二页发现url为 http://tieba.baidu.com/f?kw=%E9%B2%81%E4%B8%9C%E5%A4%A7%E5%
复制链接

扫一扫

专栏目录