爬虫实际问题

  • 资源下载阶段经常出现中断或失败等问题
  • 【方案:将资源下载及相关处理从爬取过程中独立出来,方便任务重跑】
  • 虽然是不同平台,但是重复资源太多,特别是视频网站 【方案:资源下载前根据title匹配,完全匹配则过滤,省下了多余的下载时间消耗】
  • 大量爬取过程中,会遇到ip被封的情况。
  • 【方案:动态 ip 代理】
  • 大型视频网站资源获取规则频繁替换(加密,视频切割,防盗链等),开发维护成本高 。
  • 【方案:you-get三方库,该库支持大量的主流视频网站的爬取,大大减少开发维护成本】
  • app相关爬取被加密
    【方案:反编译】
  • 优酷和腾讯视频会有 logo
    【方案:ffmpeg delogo 功能】
  • 爬过来的内容没有主播关联像盗版
    【方案:在内容正式入库时,给内容穿上主播马甲】
  • 爬取源站内容仍在更新中,但是我们的平台内容无法更新
    【方案:db 存入原站链接,根据差异性进行更新】
  • 类似优酷,爱奇艺等主流视频网站的专辑爬取任务媒介存于服务器文本文件中,并需开发手动命令触发,耗费人力
    【方案:整合脚本逻辑,以 db 为媒介,以定时任务检测触发】
  • 运营需要添加一些类似原站播放量等的数据到运营后台显示,作为审核,加精,置顶等操作的依据
    【方案:之前爬虫表在将数据导入正式表后失去关联,现在建立起关联,在爬虫表添加爬虫原站相关数据字段】
  • 由于自己的很多资源是爬过来的,所以资源的安全性和反扒就显得很重要,那么怎么保证自己资源在接口吐出后仍然安全
    【方案:upyun的防盗链空间,该空间下的资源地址有相应的时效性】
  • 接口中没有媒体文件相关信息,而自己平台需要,例如:时长
    【方案:ffmpeg 支持的媒体文件解析】
  • 下载后的视频很多在客户端无法播放
    【方案:在资源上传 upyun 前,进行格式和码率验证,不符合则进行相应的转码】
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值