from DrissionPage import ChromiumPage import time import pandas as pd # 实例化浏览器对象 dp = ChromiumPage() # 监听数据包 dp.listen.start('comment/list/') # 访问网站 # 抖音视频要对着视频点击右键进入详情页!!!!!! url = input("请输入抖音视频详情页网址:") dp.get(url) # 创建数据表格(一定要放在循环外面,只执行一次创建table) table = pd.DataFrame(columns=['昵称', '地区', '评论时间', '评论内容']) # 指定数据表格的列 index = 0 xlsx_path = input("请输入要保存的excel文件路径(格式:'C:\\Users\\14233\\Desktop\\douyin.xlsx'):") num1 = int(input("请输入爬取评论页数(若程序停止大概率是爬完了):"))+1 for page in range(1, num1): print("正在爬取第%d页" % page) # 等待数据包加载 resp = dp.listen.wait() response = resp.response.body # 字典类型 # 获取响应数据 list1 = response.get('comments') for item1 in list1: nickname = item1.get('user').get('nickname') place = item1.get('ip_label') text = item1.get('text') print("昵称:", nickname, "地区:", place, "评论:", text) created_time = item1.get('create_time') time1 = time.strftime("%Y-%m-%d %H:%M:%S", time.localtime(created_time)) print("评论时间:", time1) print("------------------------------") table.loc[index] = [nickname, place, time1, text] index += 1 table.to_excel(xlsx_path, sheet_name='抖音视频评论', index=False) # 定位底部元素位置(class是点,id是*) next_page = dp.ele('css:.Rcc71LyU') # 下滑操作 dp.scroll.to_see(next_page)
DrissionPage抖音评论采集
最新推荐文章于 2025-02-17 12:18:59 发布