import requests
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import re
import json
import time
# import matplotlib.pyplot as plt
import pickle
# import pprint as pp
def set_driver():
'''
设置一个headless_chrome浏览器
:return:
'''
# print('set_driver……')
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap['phantomjs.page.settings.userAgent'] = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless') # 设置headless模型
chrome_options.add_argument("--disable-gpu")
driver = webdriver.Chrome(chrome_options=chrome_options,desired_c

这段代码演示了如何使用Python结合requests和selenium库爬取百度贴吧中的帖子及其楼中楼回复。首先设置无头浏览器,然后通过BeautifulSoup解析网页源码,提取帖子页面和评论数据。通过对不同页面的迭代,收集到的所有评论被保存到pickle文件中。
最低0.47元/天 解锁文章


被折叠的 条评论
为什么被折叠?



