python贴吧爬虫-Python编写百度贴吧的简单爬虫

最新推荐文章于 2023-12-26 16:49:36 发布

weixin_37988176

最新推荐文章于 2023-12-26 16:49:36 发布

阅读量183

点赞数

操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数

功能：下载对应页码的所有页面并储存为HTML文件，以当前时间命名

代码：

# -*- coding: utf-8 -*-

#----------------------------

# 程序：百度贴吧的小爬虫

# 日期：2015/03/28

# 语言：Python 2.7

# 操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数

# 功能：下载对应页码的所有页面并储存为HTML文件，以当前时间命名

#----------------------------

import urllib2

import time

def baidu_tieba(url, start, end):

for i in range(start, end):

sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html'

print '正在下载第' + str(i) + '个网页，并将其储存为' + sName + '...'

f = open(sName, 'w+')

m = urllib2.urlopen(url+str(i))

n = m.read()

f.write(n)

f.close()

print '成功下载'

baiduurl = str(raw_input('请输入贴子的地址,去掉pn后面的数字>> '))

begin_page = int(raw_input('请输入帖子的起始页码>> '))

end_page = int(raw_input('请输入帖子的终止页码>> '))

baidu_tieba(baiduurl, begin_page, end_page)

以上所述就是本文的全部内容了，希望能够对大家学习Python制作爬虫有所帮助。

weixin_37988176

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python贴吧爬虫-Python编写百度贴吧的简单爬虫

操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和终点页数功能：下载对应页码的所有页面并储存为HTML文件，以当前时间命名代码：# -*- coding: utf-8 -*-#----------------------------# 程序：百度贴吧的小爬虫# 日期：2015/03/28# 语言：Python 2.7# 操作：输入带分页的地址，去掉最后面的数字，设置一下起始页数和...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。