这次将讲解如何将爬取的内容,保存到本地。
代码内容比较多,所需的库比较多,需要一定爬虫基础和pandas数据处理基础,建议用jupyter做
直接附上代码,代码有简单的备注:
1.引入所需的库:
from selenium.webdriver.common.by import By # 寻找id、类等的库
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait # 显示等待:WebDriverWait()
from selenium.webdriver.support import expected_conditions as EC # 判断一个元素是否存在,是否符合条件
import pandas as pd
from lxml import etree
2.设置相关参数:
url = 'https://movie.douban.com/subject/26266893/comments?status=P'
driver = webdriver.Chrome() # 实例化谷歌浏览器插件
driver.get(url) # 打开网页
all_data = pd.DataFrame() # 创建数据框存储数据
wait = WebDriverWait(driver, 10) # 是等待变量
这里会弹出网页界面,然后点击登录,运行下一步代码即可