STEP01 视频数据采集
对于数据采集有2种主要的方法,一种是通过api网络请求的拦截,破解api的请求参数及规则;另一种则是模拟用户的操作行为,读取界面上返回的数据来提取。
本教程以模拟用户的方式为主,api拦截的方式等后续再另行补充。
模拟用户行为主要采用的是安卓的adb。
- 何为adb?
Android Debug Bridge
adb 其实就是 Android Debug Bridge
, Android 调试桥的缩写,adb 是一个 C/S 架构的命令行工具。通过adb,完成用户的模拟操作,实现自动化。
- adb的安装
安卓开发官方下载
https://developer.android.com/studio/releases/platform-tools.html
安装的时候,如遇到问题,善用搜索引擎解决。
- 安卓模拟器,推荐网易MuMu
官网下载
http://mumu.163.com/
本指南,使用安卓模拟器,这样不管我们手上有没有安卓手机都不要紧。
熟悉模拟器的设置,包括安装apk包、更改机型、分辨率等。
- python 调用adb
我们接下来使用python来调用adb,我们需要先封装下基础的功能。
如果python不熟悉,则需要了解python的基础知识,python使用的是3.0版本以上。
如果python没有安装,则需要安装,建议使用anaconda来安装python。
https://www.anaconda.com/distribution/
同样的,如果python不会按照,请善用搜索引擎解决问题。
- 本workshop的hello world
```
python common/adb.py
```
文件已经准备好了,可以直接下载,运行。
https://github.com/shadowcz007/MLVideos
- 关于workshop
去年介绍过Steam AI lab 的游戏短视频生成。类似的,在视频合成跟视频内容挖掘中,
mixlab的这个项目都会涉及,项目中涉及的关键技术,我会整理成教程,更新到我的知识星球里,同时,欢迎设计师、前端程序员加入,一起探索。
形式,有点类似于远程协作的workshop
去年我带过一期的AR/VR行业数据采集,前年办过30天AI+美食训练营,今年来个短视频☀️
数据获取模块已经完成,简单的AI分析模块也完成。
主要是把标题,作者,url,跟视频下载下来,然后调用图像识别等,提取出内容数据。
步骤如下:
STEP 01 抖音采集
采用adb+安卓模拟器的方式
STEP 02 模拟用户行为浏览视频
采用adb获取xml来定位、获取视频的信息、点击分享链接
STEP03 视频to动图
采用adb截图,然后裁切(可搭配显著图计算),然后转成gif图,保存。
STEP04 ……
待AI模块来读取分析,其他探索性的模块,待更新
(欢迎一起讨论,完成)
欢迎加入workshop