Python - Selenium抓取抖音直播间评论

Python - Selenium抓取抖音直播间评论

下面介绍如何使用python中的selenium简单抓取抖音直播间实时评论。

友情提醒,仅供学习交流使用,请勿用于非法用途!

一、创建python项目

1.在目录下新建main.py和venv虚拟环境:

创建虚拟环境:
python -m venv venv

激活虚拟环境:
cd /venv/Scripts
source activate

请添加图片描述
2.安装selenium:

在激活的虚拟环境(venv)下:
pip install selenium -i https://mirrors.aliyun.com/pypi/simple/

3.下载谷歌浏览器Chrome驱动:

新版selenium会自动下载并载入webDriver,不需要以前的手动配置加载,但每隔一段时间, selenium就会检查webDriver更新并重新下载,重新下载的过程中程序无法运行,且因为网络问题,浏览器需要较长时间才能打开,所以我们选择使用selenium中的service类手动加载webDriver避免每次重新下载webDriver更新,解决浏览器长时间未打开的问题,把下载好的chromedriver.exe放到目录下。

1.在谷歌浏览器输入,获取当前的浏览器版本
chrome://version/

2.然后再访问链接下载驱动(替换自己的浏览器版本:127.0.6533.73https://storage.googleapis.com/chrome-for-testing-public/127.0.6533.73/win64/chromedriver-win64.zip

3.并把chromedriver.exe放到项目目录下

二、抓取抖音直播间评论

1.在main.py文件中:

import time  # 事件库,用于硬性等待
import threading
from bs4 import BeautifulSoup
from selenium import webdriver  # 导入selenium的webdriver模块
from selenium.webdriver.chrome.service import Service

live_dy_url = 'https://live.douyin.com/xxxxxxxxx'  # 直播间链接
crawling_browser_dy = None  # 浏览器
comment_list = []  # 评论列表

# 打开直播间浏览器
def init_crawling_browser_dy(url):
    global crawling_browser_dy
    service = Service('./chromedriver.exe')
    options = webdriver.ChromeOptions()
    # 无头模式
    # options.add_argument('--headless')
    options.add_experimental_option('detach', True)
    # 忽略证书错误
    options.add_argument('--ignore-certificate-errors')
    # 忽略 Bluetooth: bluetooth_adapter_winrt.cc:1075 Getting Default Adapter failed. 错误
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    # 忽略 DevTools listening on ws://127.0.0.1... 提示
    options.add_experimental_option('excludeSwitches', ['enable-logging'])
    crawling_browser_dy = webdriver.Chrome(options=options,service=service)
    crawling_browser_dy.get('https://live.douyin.com/')  # 抖音直播主页
    crawling_browser_dy.maximize_window()  # 浏览器全屏
    time.sleep(3)  # 等待3s
    crawling_browser_dy.get(url)  # 跳转到直播间链接
    threading.Timer(10, get_comment_list, args=()).start()  # 执行:10s

# 获取html标签中的评论文本
def get_comment_list():
    global comment_list ,crawling_browser_dy
    try:
        content_dy = crawling_browser_dy.page_source
        soup_dy = BeautifulSoup(content_dy, 'html.parser')
        # 找到评论的class名称
        items_dy = soup_dy.find_all(class_='webcast-chatroom___xxx webcast-chatroom___xxx')  # 元素xpath已被篡改,代码仅供学习参考使用
        for item in items_dy[-5:]:  # 获取最新的5条评论 
            text = item.text.split(':')[1] if item.text.count(':') > 0 else item.text
            comment_list .append(text)
        print(comment_list)  # 打印评论列表 
        comment_list.clear()
        threading.Timer(10, get_comment_list, args=()).start()  # 重复执行:10s
    except:
        print('抖音自动化测试浏览器:未找到弹幕标签,请查看直播链接是否已结束或异常关闭')

init_crawling_browser_dy(live_dy_url)

2.运行main.py文件,获取最新的5条评论:

python main.py

请添加图片描述

到此为止,selenium获取抖音直播间实时评论就完成啦,难点在于selenium的设置和选择好评论文本的class名称。仅供学习交流使用,请勿用于非法用途。

### 使用Python实现评论数据的网络爬取 为了实现这一目标,可以采用多种方法和技术栈组合。以下是基于Selenium和BeautifulSoup库的一种解决方案。 #### 准备工作 安装必要的依赖包: ```bash pip install selenium beautifulsoup4 ``` #### 初始化浏览器驱动 创建一个新的Chrome实例,并设置无头模式以减少资源消耗: ```python from selenium import webdriver from selenium.webdriver.chrome.options import Options chrome_options = Options() chrome_options.add_argument("--headless") # 运行时不显示界面 driver = webdriver.Chrome(options=chrome_options) ``` #### 访问目标页面并加载更多评论 通过模拟用户滚动行为触发分页加载机制,从而获取完整的评论区内容: ```python url = 'https://www.douyin.com/video/xxxxxx' # 替换成实际的目标链接 driver.get(url) # 动态加载更多评论 for _ in range(5): # 控制加载次数 driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") time.sleep(2) # 等待新内容加载完成 ``` #### 解析HTML文档结构 利用BeautifulSoup解析DOM树形结构中的`<div class="comment-item">...</div>`节点集合,从中抽取所需字段如用户名、发布时间戳及正文文本等信息[^2]。 ```python from bs4 import BeautifulSoup soup = BeautifulSoup(driver.page_source, 'html.parser') comments = soup.find_all('div', {'class': 'comment-item'}) data = [] for item in comments: user_name = item.select_one('.username').text.strip() post_time = item.select_one('.time').get('title') content = item.select_one('.content').text.strip() data.append({ "user": user_name, "timestamp": post_time, "message": content }) ``` #### 数据存储处理 最后一步就是将收集到的数据持久化保存至本地文件系统或其他形式的数据库中以便后续分析使用。 ```python import json with open('./douyin_comments.json', mode='w+', encoding='utf8') as f: json.dump(data, f, ensure_ascii=False, indent=2) ``` 关闭浏览器连接结束会话。 ```python driver.quit() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值