- 资源下载阶段经常出现中断或失败等问题
- 【方案:将资源下载及相关处理从爬取过程中独立出来,方便任务重跑】
- 虽然是不同平台,但是重复资源太多,特别是视频网站 【方案:资源下载前根据title匹配,完全匹配则过滤,省下了多余的下载时间消耗】
- 大量爬取过程中,会遇到ip被封的情况。
- 【方案:动态 ip 代理】
- 大型视频网站资源获取规则频繁替换(加密,视频切割,防盗链等),开发维护成本高 。
- 【方案:you-get三方库,该库支持大量的主流视频网站的爬取,大大减少开发维护成本】
- app相关爬取被加密
【方案:反编译】 - 优酷和腾讯视频会有 logo
【方案:ffmpeg delogo 功能】 - 爬过来的内容没有主播关联像盗版
【方案:在内容正式入库时,给内容穿上主播马甲】 - 爬取源站内容仍在更新中,但是我们的平台内容无法更新
【方案:db 存入原站链接,根据差异性进行更新】 - 类似优酷,爱奇艺等主流视频网站的专辑爬取任务媒介存于服务器文本文件中,并需开发手动命令触发,耗费人力
【方案:整合脚本逻辑,以 db 为媒介,以定时任务检测触发】 - 运营需要添加一些类似原站播放量等的数据到运营后台显示,作为审核,加精,置顶等操作的依据
【方案:之前爬虫表在将数据导入正式表后失去关联,现在建立起关联,在爬虫表添加爬虫原站相关数据字段】 - 由于自己的很多资源是爬过来的,所以资源的安全性和反扒就显得很重要,那么怎么保证自己资源在接口吐出后仍然安全
【方案:upyun的防盗链空间,该空间下的资源地址有相应的时效性】 - 接口中没有媒体文件相关信息,而自己平台需要,例如:时长
【方案:ffmpeg 支持的媒体文件解析】 - 下载后的视频很多在客户端无法播放
【方案:在资源上传 upyun 前,进行格式和码率验证,不符合则进行相应的转码】
爬虫实际问题
最新推荐文章于 2024-10-08 20:27:53 发布