python爬取贴吧网页信息

最新推荐文章于 2023-10-05 23:24:44 发布

·慕晴·

最新推荐文章于 2023-10-05 23:24:44 发布

阅读量628

点赞数

分类专栏： Python爬虫文章标签： python爬虫

本文链接：https://blog.csdn.net/chao_qing/article/details/78003034

版权

本文介绍了如何使用Python进行网页抓取，详细讲解了从分析贴吧网页代码到编写爬虫代码的步骤，并展示了最终的爬取效果。

摘要由CSDN通过智能技术生成

第一步分析网页代码如下：

'''
author：superWang
date：2017-09-15
requests模板：2.18.4
bs4模板：4.6.0
json模板：2.0.9
time模板：无
爬取贴吧网页http://c.tieba.baidu.com/p/4994831746?pn=1 中的信息 ，url中pn=1表示第一页
'''

#!/usr/bin/env python
#-*- coding:utf-8 -*-

import requests
from bs4 import BeautifulSoup
import json
import time

#得到贴吧个楼层的信息
url = 'http://c.tieba.baidu.com/p/4994831746?pn=1'
res = requests.get(url)
#print(res.text)
soup = BeautifulSoup(res.text,'html5lib')
l_posts = soup.select("#j_p_postlist .l_post")
#print(len(l_posts))
#这里为什么要取l_posts[1] 而不去 l_posts[0]，因为二楼有回复评论的信息，所以我就取了二楼来做测试
print(l_posts[1].select(".d_author .d_name .p_author_name")[0].text)#名字
#print(l_posts[1].select(".d_author .l_badge .user_badge")[0]['title'])#等级
print(l_posts[1].select(".d_author .l_badge .user_badge")[0].text)#等级
print(l_posts[1].select(".d_post_content_main .p_content cc")[0].text)#内容
print(l_posts[1].select(".d_post_content_main .core_reply .post-tail-wrap .tail-info")[1].text)#楼数
print(l_posts[1].select(".d_post_content_main .core_reply .post-tail-wrap .tail-info")[2].text)#时间


#得到贴吧一个楼层中的回复评论信息
#print(l_posts[1]["data-field"])#回复人 查询的数据 tid
jd = json.loads(l_posts[1]["data-field"])#解码成Python的dict类型
#print(type(jd))
print(jd)
tid = jd["content"]["thread_id"]#回复人 查询的数据 tid
fid = jd["content"]["forum_id"]#回复人 查询的数据 fid
post_id = jd["content"]["post_id"]
url2 = "http://c.tieba.baidu.com/p/totalComment?pn=1&see_lz=0&tid="+str(tid)+"&fid="+str(fid)
#print(url2)
res2 = requests.get(url2)
print(res2.text)#本页所有回复的信息
jd2 = json.loads(res2.text)#解码成Python的dict类型
print(jd2["data"]["comment