爬虫实际问题

最新推荐文章于 2024-10-08 20:27:53 发布

like do this

最新推荐文章于 2024-10-08 20:27:53 发布

阅读量159

点赞数

分类专栏：爬虫文章标签： python

原文链接：https://mp.weixin.qq.com/s/Fbrw3l9rueAmu1ApkUqV3g

版权

爬虫专栏收录该内容

4 篇文章 0 订阅

订阅专栏

                    
                        
                    
                    资源下载阶段经常出现中断或失败等问题
【方案：将资源下载及相关处理从爬取过程中独立出来，方便任务重跑】
虽然是不同平台，但是重复资源太多，特别是视频网站 【方案：资源下载前根据title匹配，完全匹配则过滤，省下了多余的下载时间消耗】
大量爬取过程中，会遇到ip被封的情况。
【方案：动态 ip 代理】
大型视频网站资源获取规则频繁替换（加密，视频切割，防盗链等），开发维护成本高 。
【方案：you-get三方库，该库支持大量的主流视频网站的爬取，大大减少开发维护成本】
app相关爬取被加密
 【方案：反编译】
优酷和腾讯视频会有 logo
 【方案：ffmpeg delogo 功能】
爬过来的内容没有主播关联像盗版
 【方案：在内容正式入库时，给内容穿上主播马甲】
爬取源站内容仍在更新中，但是我们的平台内容无法更新
 【方案：db 存入原站链接，根据差异性进行更新】
类似优酷，爱奇艺等主流视频网站的专辑爬取任务媒介存于服务器文本文件中，并需开发手动命令触发，耗费人力
 【方案：整合脚本逻辑，以 db 为媒介，以定时任务检测触发】
运营需要添加一些类似原站播放量等的数据到运营后台显示，作为审核，加精，置顶等操作的依据
 【方案：之前爬虫表在将数据导入正式表后失去关联，现在建立起关联，在爬虫表添加爬虫原站相关数据字段】
由于自己的很多资源是爬过来的，所以资源的安全性和反扒就显得很重要，那么怎么保证自己资源在接口吐出后仍然安全
 【方案：upyun的防盗链空间，该空间下的资源地址有相应的时效性】
接口中没有媒体文件相关信息，而自己平台需要，例如：时长
 【方案：ffmpeg 支持的媒体文件解析】
下载后的视频很多在客户端无法播放
 【方案：在资源上传 upyun 前，进行格式和码率验证，不符合则进行相应的转码】