如何sleep_如何采集抖音的数据,视频数据采集教程

如何采集抖音的数据,视频数据采集教程

抖音App和服务端交互使用的是HTTPS协议,使用Fiddler很容易可以捕获到数据,如下图所示。

0bd37961d5cf3057bccf976473fce310.png

不过想要自己模拟一个有效的请求可不是那么容易了,因为它使用了签名机制,在所有请求中都有as和cp两个签名参数,除非得知签名算法否则我们无法构造出有效的请求。
这里我们使用模拟操作抖音App的方式,让App帮我们发出有效的请求,然后我们拦截服务器的HTTP应答数据,再从中提取我们感兴趣的信息。
下面结合一个实际的案例介绍下整个过程,根据客户的需求,要采集一些指定用户加关后的系统推荐“你可能感兴趣”的数据(如下图所示)用于商品营销。

009867f581256ff4a490f94b349de6f2.png

点击“查看更多”可以看到更多的系统推荐用户列表数据,如下图所示。

94951567505415887e51a0f2cf83f729.png

我们按如下步骤模拟操作App:
1.启动抖音。
2.点击搜索按钮。
3.输入搜索关键词(抖音用户ID),点击搜索。
4.找到匹配的用户,点击关注。
5.点击系统推荐“查看更多”,模拟多次向上滑动屏幕,直至数据加载完毕(屏幕出现“暂时没有更多了”)。
于此同时,我们使用抓包脚本(可以使用Fiddler的Customize Rules,也可以使用Mitmproxy),捕获并过滤URL中含有/user/recommend/的HTTP应答数据,从JSON数据中提取系统推荐的用户信息(如下图所示)。

b1e376e86338b4fb7a57ddc649a58d4e.png

模拟操作抖音App的脚本核心代码如下所示:
抖音App和服务端交互使用的是HTTPS协议,使用Fiddler很容易可以捕获到数据,如下图所示。



不过想要自己模拟一个有效的请求可不是那么容易了,因为它使用了签名机制,在所有请求中都有as和cp两个签名参数,除非得知签名算法否则我们无法构造出有效的请求。

这里我们使用模拟操作抖音App的方式,让App帮我们发出有效的请求,然后我们拦截服务器的HTTP应答数据,再从中提取我们感兴趣的信息。

下面结合一个实际的案例介绍下整个过程,根据客户的需求,要采集一些指定用户加关后的系统推荐“你可能感兴趣”的数据(如下图所示)用于商品营销。



点击“查看更多”可以看到更多的系统推荐用户列表数据,如下图所示。



我们按如下步骤模拟操作App:

1.启动抖音。

2.点击搜索按钮。

3.输入搜索关键词(抖音用户ID),点击搜索。

4.找到匹配的用户,点击关注。

5.点击系统推荐“查看更多”,模拟多次向上滑动屏幕,直至数据加载完毕(屏幕出现“暂时没有更多了”)。

于此同时,我们使用抓包脚本(可以使用Fiddler的Customize Rules,也可以使用Mitmproxy),捕获并过滤URL中含有/user/recommend/的HTTP应答数据,从JSON数据中提取系统推荐的用户信息(如下图所示)。



模拟操作抖音App的脚本核心代码如下所示:

view plaincopy to clipboardprint?
from com.dtmilano.android.viewclient import ViewClient  

def search_douyin_for_recommend_user(douyin_id):  
     """采集指定抖音账号的关注推荐数据 
     """  
     log(u'准备采集"{}"对应的关注推荐数据'.format(douyin_id))  
     # 连设备  
     serialno = None  
     if serialno:  
          os.system('adb connect {}'.format(serialno or ''))  
          time.sleep(3)  

     device, serialno = ViewClient.connectToDeviceOrExit(serialno=serialno)  
     vc = ViewClient(device, serialno, autodump=False)  

     # 强制关闭抖音  
     log(u'强制关闭抖音.')  
     device.shell('am force-stop com.ss.android.ugc.aweme')  
     time.sleep(2)  

     # 启动抖音  
     log(u'启动抖音.')  
     device.shell('am start -n com.ss.android.ugc.aweme/.main.MainActivity')  
     time.sleep(5)  
     # 暂停视频播放  
     log(u'点击屏幕,暂停视频播放.')  
     device.touch(514, 1048)  

     # 点击搜索按钮  
     vc.dump()  
     search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/amj')  
     if search_btn:  
          log(u'点击搜索按钮,跳转到搜索页面.')  
          search_btn.touch()  

          vc.dump()  
          # 点击搜索输入框  
          search_input = vc.findViewById('com.ss.android.ugc.aweme:id/ad_')  
          if search_input:  
               log(u'点击搜索框,准备输入关键词.')  
               search_input.touch()  

               # 输入抖音ID  
               log(u'输入搜索关键词: {}.'.format(douyin_id))  
               device.type(douyin_id.encode('UTF-8'))  

               # 点击搜索按钮  
               search_btn = vc.findViewById('com.ss.android.ugc.aweme:id/cp8')  
               if search_btn:  
                    log(u'提交搜索.')  
                    search_btn.touch()  
                    time.sleep(2)  
                    vc.dump()  

                    ## 切换到用户  
                    #user_tab = vc.findViewWithText(u'用户')  
                    #user_tab.touch()  

                    # 找到匹配的  
                    matches = []  
                    def find_matches(view):  
                         if view.getClass() == 'android.widget.TextView':  
                              text = view.getText()  
                              if douyin_id.lower() in text.lower():  
                                   # 找到匹配的了  
                                   log(u'找到匹配的: {}'.format(text))  
                                   matches.append(view)  
                              else:  
                                   #print text  
                                   pass  
                    vc.traverse(transform=lambda view: find_matches(view))  
                    if matches:  
                         # 有没有已关注按钮  
                         btn = vc.findViewWithText(u'已关注')  
                         if btn:  
                              # 先取消关注  
                              log(u'之前关注过,先取消关注.')  
                              btn.touch()  
                              time.sleep(1)  
                         user_matched = matches[0]  
                         log(u'点击进入个人主页.')  
                         user_matched.touch()  
                         time.sleep(1)  

                         # 点关注  
                         vc.dump()  
                         follow_btn = vc.findViewById('com.ss.android.ugc.aweme:id/aei')  
                         if follow_btn:  
                              # 点击关注  
                              log(u'点击关注')  
                              follow_btn.touch()  
                              time.sleep(1)  
                              # 点击查看更多  
                              vc.dump()  
                              viewmore_btn = vc.findViewById('com.ss.android.ugc.aweme:id/bqn')  
                              if viewmore_btn:  
                                   # 点击查看更多  
                                   log(u'点击查看更多系统推荐')  
                                   viewmore_btn.touch()  
                                   time.sleep(1)  
                                   i = 0  
                                   while True:  
                                        # 上滑动  
                                        device.drag((345, 1762), (345, 550), duration=100)  
                                        log(u'上滑以加载更多')  
                                        i += 1  
                                        if i % 5 == 0:  
                                             # 拖动10次判断一下是否还有更多  
                                             vc.dump()  
                                             if vc.findViewWithText(u'暂时没有更多了'):  
                                                  log(u'暂时没有更多了, "{}"的关注推荐数据采集完毕.'.format(douyin_id))  
                                                  # 采集成功了  
                                                  return True  
                                             failed_tip = vc.findViewWithText(u'加载失败,点击重试')  
                                             if failed_tip:  
                                                  log(u'加载失败,点击重试.')  
                                                  failed_tip.touch()  
                              else:  
                                   # 没有找到查看更多按钮  
                                   log(u'没有找到查看更多按钮')  
                         else:  
                              # 没有找到加关注按钮  
                              log(u'没有找到加关注按钮')  
                    else:  
                         # 没有找到匹配的用户  
                         log(u'没有找到匹配的用户')  
               else:  
                   # 没有找到搜索提交按钮  
                    log(u'没有找到搜索提交按钮.')  
          else:  
               # 没有找到搜索输入框  
               log(u'没有找到搜索输入框.')  
     else:  
          # 没有找到搜索按钮  
          log(u'没有找到搜索按钮.')  

上述脚本的运行截图如下所示:

6b80ed3c161ddc1bcd7933223283713d.png

最后附上抓取到的部分示例数据:

73fba17f6a3733958a96caf55033c8b9.png

更多抖音,快手,小红书数据实时采集接口,请查看文档: TiToData


免责声明:本文档仅供学习与参考,请勿用于非法用途!否则一切后果自负。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值