python采集抖音数据_【图片】如何采集抖音的数据?【python吧】_百度贴吧

本文介绍了如何使用Python模拟操作抖音App,通过Fiddler或Mitmproxy抓包,采集指定用户关注后系统推荐的用户数据。通过连接设备、启动抖音、搜索用户、关注并加载更多推荐数据,最终提取出所需信息。
摘要由CSDN通过智能技术生成

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼

抖音App和服务端交互使用的是HTTPS协议,使用Fiddler很容易可以捕获到数据,如下图所示。

不过想要自己模拟一个有效的请求可不是那么容易了,因为它使用了签名机制,在所有请求中都有as和cp两个签名参数,除非得知签名算法否则我们无法构造出有效的请求。

这里我们使用模拟操作抖音App的方式,让App帮我们发出有效的请求,然后我们拦截服务器的HTTP应答数据,再从中提取我们感兴趣的信息。

下面结合一个实际的案例介绍下整个过程,根据客户的需求,要采集一些指定用户加关后的系统推荐“你可能感兴趣”的数据(如下图所示)用于商品营销。

点击“查看更多”可以看到更多的系统推荐用户列表数据,如下图所示。

我们按如下步骤模拟操作App:

1.启动抖音。

2.点击搜索按钮。

3.输入搜索关键词(抖音用户ID),点击搜索。

4.找到匹配的用户,点击关注。

5.点击系统推荐“查看更多”,模拟多次向上滑动屏幕,直至数据加载完毕(屏幕出现“暂时没有更多了”)。

于此同时,我们使用抓包脚本(可以使用Fiddler的Customize Rules,也可以使用Mitmproxy),捕获并过滤URL中含有/user/recommend/的HTTP应答数据,从JSON数据中提取系统推荐的用户信息(如下图所示)。

模拟操作抖音App的脚本核心代码如下所示:

view plaincopy to clipboardprint?

from com.dtmilano.android.viewclient import ViewClient

def search_douyin_for_recommend_user(douyin_id):

“”“采集指定抖音账号的关注推荐数据

“””

log(u’准备采集"{}"对应的关注推荐数据’.format(douyin_id))

# 连设备

serialno = None

if serialno:

os.system(‘adb connect {}’.format(serialno or ‘’))

time.sleep(3)

device, serialno = ViewClient.connectToDeviceOrExit(serialno=serialno) vc = ViewClient(device, serialno, autodump=False) # 强制关闭抖音 log(u'强制关闭抖音.') device.shell('am force-stop com.ss.android.ugc.aweme') time.sleep(2) # 启动抖音 log(u'启动抖音.') device.shell('am start -n com.ss.android.ugc.aweme/.main.MainActivity') time.sleep(5) # 暂停视频播放 log(u'点击屏幕,暂停视频播放.') device.touch(514, 1048) # 点击搜索按钮 vc.dump() search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/amj') if search_btn: log(u'点击搜索按钮,跳转到搜索页面.') search_btn.touch() vc.dump() # 点击搜索输入框 search_input = vc.findViewById('com.ss.android.ugc.aweme:id/ad_') if search_input: log(u'点击搜索框,准备输入关键词.') search_input.touch() # 输入抖音ID log(u'输入搜索关键词: {}.'.format(douyin_id)) device.type(douyin_id.encode('UTF-8')) # 点击搜索按钮 search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/cp8') if search_btn: log(u'提交搜索.') search_btn.touch() time.sleep(2) vc.dump() ## 切换到用户 #user_tab = vc.findViewWithText(u'用户') #user_tab.touch() # 找到匹配的 matches = [] def find_matches(view): if view.getClass() == 'android.widget.TextView': text = view.getText() if douyin_id.lower() in text.lower(): # 找到匹配的了 log(u'找到匹配的: {}'.format(text)) matches.append(view) else: #print text pass vc.traverse(transform=lambda view: find_matches(view)) if matches: # 有没有已关注按钮 btn = vc.findViewWithText(u'已关注') if btn: # 先取消关注 log(u'之前关注过,先取消关注.') btn.touch() time.sleep(1) user_matched = matches[0] log(u'点击进入个人主页.') user_matched.touch() time.sleep(1) # 点关注 vc.dump() follow_btn = vc.findViewById('com.ss.android.ugc.aweme:id/aei') if follow_btn: # 点击关注 log(u'点击关注') follow_btn.touch() time.sleep(1) # 点击查看更多 vc.dump() viewmore_btn = vc.findViewById('com.ss.android.ugc.aweme:id/bqn') if viewmore_btn: # 点击查看更多 log(u'点击查看更多系统推荐') viewmore_btn.touch() time.sleep(1) i = 0 while True: # 上滑动 device.drag((345, 1762), (345, 550), duration=100) log(u'上滑以加载更多') i += 1 if i % 5 == 0: # 拖动10次判断一下是否还有更多 vc.dump() if vc.findViewWithText(u'暂时没有更多了'): log(u'暂时没有更多了, "{}"的关注推荐数据采集完毕.'.format(douyin_id)) # 采集成功了 return True failed_tip = vc.findViewWithText(u'加载失败,点击重试') if failed_tip: log(u'加载失败,点击重试.') failed_tip.touch() else: # 没有找到查看更多按钮 log(u'没有找到查看更多按钮') else: # 没有找到加关注按钮 log(u'没有找到加关注按钮') else: # 没有找到匹配的用户 log(u'没有找到匹配的用户') else: # 没有找到搜索提交按钮 log(u'没有找到搜索提交按钮.') else: # 没有找到搜索输入框 log(u'没有找到搜索输入框.') else: # 没有找到搜索按钮 log(u'没有找到搜索按钮.')

上述脚本的运行截图如下所示:

最后附上抓取到的部分示例数据:

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值