编写爬虫爬取百度贴吧帖子的学习笔记

再接再厉,再次使用python3学习编写了一个爬取百度贴吧帖子的程序,不多说,直接上关键代码

#抓取贴吧一个帖子上的内容(一页内容)
import urllib
import urllib.request
import re
page = 1
baseUrl = r'https://tieba.baidu.com/p/2687476192'
seeLZ = 0
try:
	url = baseUrl+'?see_lz='+str(seeLZ)+'&pn='+str(page)
	request = urllib.request.Request(url)
	response = urllib.request.urlopen(request)
	content = response.read().decode('utf-8')
	#获取帖子标题
	patternTitle = re.compile(r'<h\d class="core_title_txt.*?>(.*?)</h\d>',re.S)
	resultTitle = re.search(patternTitle,content)
	print(resultTitle.group(1).strip())
	#获取帖子回复数和总页数
	patternNum = re.compile(r'<li class="l_reply_num".*?><span.*?>(.*?)</span.*?<span.*?>(.*?)</span>',re.S)
	resultNum =re.search(patternNum,content)
	print(resultNum.group(1).strip(),resultNum.group(2).strip())
	#获取帖子每层楼内容
	patternContent = re.compile(r'<div id="post_content_.*?">(.*?)</div>',re.S)
	items = re.findall(patternContent,content)
	tool = Tool()
	for item in items:
		print('\n',tool.replace(item),'\n')
except urllib.request.URLError as e:
	if hasattr(e,'reason'):
		print(e.reason)
完整代码也上传到了github: https://github.com/callMeBin2217/python3_Spider  有兴趣的朋友可以下载来看看,或者和我交流交流。小小小小小小白求轻喷

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值