DrissionPage抖音评论采集

最新推荐文章于 2025-02-17 12:18:59 发布

hellotua

最新推荐文章于 2025-02-17 12:18:59 发布

阅读量694

点赞数 6

文章标签： python 爬虫

本文链接：https://blog.csdn.net/2302_80585812/article/details/145402165

版权

from DrissionPage import ChromiumPage
import time
import pandas as pd

# 实例化浏览器对象
dp = ChromiumPage()
# 监听数据包
dp.listen.start('comment/list/')
# 访问网站
# 抖音视频要对着视频点击右键进入详情页!!!!!!
url = input("请输入抖音视频详情页网址:")
dp.get(url)
# 创建数据表格(一定要放在循环外面,只执行一次创建table)
table = pd.DataFrame(columns=['昵称', '地区', '评论时间', '评论内容'])  # 指定数据表格的列
index = 0
xlsx_path = input("请输入要保存的excel文件路径(格式:'C:\\Users\\14233\\Desktop\\douyin.xlsx'):")
num1 = int(input("请输入爬取评论页数(若程序停止大概率是爬完了):"))+1
for page in range(1, num1):
    print("正在爬取第%d页" % page)
    # 等待数据包加载
    resp = dp.listen.wait()
    response = resp.response.body  # 字典类型
    # 获取响应数据
    list1 = response.get('comments')
    for item1 in list1:
        nickname = item1.get('user').get('nickname')
        place = item1.get('ip_label')
        text = item1.get('text')
        print("昵称:", nickname, "地区:", place, "评论:", text)
        created_time = item1.get('create_time')
        time1 = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(created_time))
        print("评论时间:", time1)
        print("------------------------------")
        table.loc[index] = [nickname, place, time1, text]
        index += 1
        table.to_excel(xlsx_path, sheet_name='抖音视频评论', index=False)
    # 定位底部元素位置(class是点,id是*)
    next_page = dp.ele('css:.Rcc71LyU')
    # 下滑操作
    dp.scroll.to_see(next_page)