获取页面源代码
html = driver.page_source
关闭浏览器
driver.quit()
使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, ‘html.parser’)
…(后续操作与上面相同)
### 三、抓取抖音视频列表
首先,安装并设置好Selenium以及对应的WebDriver。
使用Selenium打开抖音的网页,例如driver.get("https://www.douyin.com/")。
等待页面加载完成,这可能需要一些时间,因为页面内容是通过JavaScript动态加载的。可以使用WebDriverWait和expected\_conditions来等待特定元素的出现。
一旦页面加载完成,你可以使用find\_element\_by\_xpath或其他定位方法来获取视频列表。
遍历视频列表,提取每个视频的相关信息,如视频标题、发布者、播放次数等。
如果需要,可以模拟滚动页面以加载更多的视频内容。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
设置WebDriver的路径
driver_path = ‘path/to/your/webdriver’ # 例如:‘C:/path/to/chromedriver.exe’ for Chrome
创建WebDriver实例
driver = webdriver.Chrome(executable_path=driver_path)
打开抖音网页
driver.get(‘https://www.douyin.com/’)