python写爬虫技巧（五）：简单的百度贴吧网页爬虫

最新推荐文章于 2020-09-15 09:27:14 发布

蒋学

最新推荐文章于 2020-09-15 09:27:14 发布

阅读量540

点赞数

分类专栏： python 文章标签： Python scrapy

python 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

# -*- coding: cp936 -*-
import string, urllib2  
   
#定义百度函数  
def baidu_tieba(url,begin_page,end_page):     
    for i in range(begin_page, end_page+1):  
        sName = string.zfill(i,5) + '.html'#自动填充成六位的文件名  
        print '正在下载第' + str(i) + '个网页，并将其存储为' + sName + '......'  
        f = open(sName,'w+')  
        m = urllib2.urlopen(url + str(i)).read()  
        f.write(m)  
        f.close()
    print '程序结束！'
   
   


#-------- 在这里输入参数 ------------------      
bdurl = str(raw_input(u'请输入贴吧的地址，去掉pn=后面的数字：\n'))  
begin_page = int(raw_input(u'请输入开始的页数：\n'))  
end_page = int(raw_input(u'请输入终点的页数：\n'))  
#-------- 在这里输入参数 ------------------  
   
  
#调用  
baidu_tieba(bdurl,begin_page,end_page)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

蒋学

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python写爬虫技巧（五）：简单的百度贴吧网页爬虫

# -*- coding: cp936 -*-import string, urllib2 #定义百度函数 def baidu_tieba(url,begin_page,end_page): for i in range(begin_page, end_page+1): sName = string.zfill(i,5) + '.html'#
复制链接

扫一扫