python 视频解析_Python爬虫-深度视频解析NAVER V(VLIVE)网站

这几天突发奇想,前一天晚上看了Python爬虫相关的视频,以及昨天晚上完成初步的代码功能实现,1.0版本就此诞生了。

首先进行申明或提示:我列表中的粉丝可能对这篇文章看不大懂,如有兴趣可继续阅读;

未经JTY起风了许可,禁止将此篇文章转载;

代码纯手打,纯为自己的想法进行编写,如有雷同纯属意外。

V网站视频相关分析

这次针对进行解析的网站为‘VLIVE’,是韩国一家艺人直播平台。VLIVE首页

那么,如何对这个平台进行解析呢?首先分为几个步骤:进入某一个视频,查看源代码是否有src源地址;

进入某一个视频,打开控制台F12,network标签进行抓包,看是否有包含源地址信息的文件传入,若有,则进行分析。

在经过我的分析之厚,上述条件1中并没有源地址。然而,我在第2条件中抓到了相关数据json文件。此处需要使用谷歌内核的浏览器打开F12进行抓包

双击打开此文件,则进入第二个网页,此网页为服务器返回的一个json页面,里面包含了所有该视频的信息:各种分辨率的源地址,m3u8的播放列表,以及我们最喜爱的中文字幕。视频分辨率相关的源地址信息

视频字幕相关的源地址信息

有了思路之后,我们再进行构思。应该如何写代码,代码中的json地址该怎么获得?

我们先对json的网页地址进行分析,我找出两个比较重要的参数。如下图。

我们需要获得上方的key值以及videoID值方可拼接出json地址。

那么,问题又来了。这两个值又要去哪里找呢!!!

我们一般写爬虫都需要看网页的源代码对吧?那么我们随便打开一个vlive网页,查看源代码。

看上图,红框框里的数据是不是似曾相识。OK!那我们得到了这两个数据,又有了json的地址,我们写代码的时候进行拼接不就完了吗~

码农的生活开始,这边题外话。我不是全职码农,我的专业是网络安全,写Python只是突发奇想,我这辈子不会写代码的,我不会真香的。

部分Python代码解释

req = urllib2.Request(input_url)      #键入url值

req.add_header("user-agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36")    #V做了反爬虫机制过滤机器用户,所以得添加头信息模拟真实用户

html = urllib2.urlopen(req).read()#打开URL传入html

reg = r'vlive.video.init\(".*?"\, ".*?"\, ".*?"\, ".*?"\, ".*?"\,\n\t\t\t"(.*?)"\,\n\t\t\t"(.*?)"\,'#使用正则表达式匹配源代码中的两个参数,并且缓存至reg中

spi = re.findall(reg, html)[0]#寻找所有符合相关条件的数据并传入spi列表

json_url = 'https://global.apis.naver.com/rmcnmv/rmcnmv/vod_play_videoInfo.json?key='+spi[1]+'&pid=rmcPlayer_15450415010952367&sid=2024&ver=2.0&devt=html5_pc&doct=json&ptc=https&sptc=https&cpt=vtt&ctls=%7B%22visible%22%3A%7B%22fullscreen%22%3Atrue%2C%22logo%22%3Afalse%2C%22playbackRate%22%3Afalse%2C%22scrap%22%3Afalse%2C%22playCount%22%3Atrue%2C%22commentCount%22%3Atrue%2C%22title%22%3Atrue%2C%22writer%22%3Atrue%2C%22expand%22%3Atrue%2C%22subtitles%22%3Atrue%2C%22thumbnails%22%3Atrue%2C%22quality%22%3Atrue%2C%22setting%22%3Atrue%2C%22script%22%3Afalse%2C%22logoDimmed%22%3Atrue%2C%22badge%22%3Atrue%2C%22seekingTime%22%3Atrue%2C%22linkCount%22%3Afalse%2C%22createTime%22%3Afalse%2C%22thumbnail%22%3Atrue%7D%2C%22clicked%22%3A%7B%22expand%22%3Afalse%2C%22subtitles%22%3Afalse%7D%7D&pv=4.6.3&dr=1920x1080&cpl=zh_CN&lc=zh_CN&videoId='+spi[0]+'&cc=US'#拼接spi所找出的相关值取得该v地址的真实源地址信息即json

html_json = urllib2.urlopen(json_url)

h_json = json.loads(html_json.read())#此两行代码是将数据格式化,类似于字典

完整代码如下,由于Pycharm窗口限制,我使用idle打开编译环境:python2

最终运行效果,如下

代码还是有缺陷:没有GUI界面;

没有对input做www判断;

没有写下载代码;

到此,本文结束。喜欢TWICE的可以follow我咯,我不仅是个once,还是个有技术的once。会剪辑视频,会做字幕,会写代码,还会嘤嘤嘤。

最后,再次申明,未经本人的许可禁止转载。源代码已po出。想必有能力的人已经可以copy一份了。

哇塞电影网址大全 v20190303 更新日志 1.删除无效网址,更换主站地址。 2.优化搜索页面安全设置。 3.整合优化页面设置。 哇塞电影网址大全简介 哇塞电影网址大全,吸取了以往各种导航网址程序的优点,最大程度的完善优化了各项功能和指标,采用谁对我站贡献大,我站也给予他宣传和展示的机会就越多的流量交换模式,只要您在本系统注册登记您的网址,然后在你网站做好我站连接或是挂上流量互换代码,每次您网站有用户访问到放置我站流量互换代码的站,那么你的网站将在最近入站以及你网站所在分类的第一位置!连接双方公正平等。 哇塞电影网址大全系统前台简介: 1.采用ASP ACCESS架构,安全稳定,防注入功能; 2.新闻文章发布功能支持无限级分类,方便自由; 3.数据库经过防下载等安全处理,后台可超强命名,随意改动; 4.每来访一个IP,来访网站就会自动排到第一,当天来路不同,显示颜色也不同,鼓励点入; 5.前台统计数据调用,最新点入网站调用,未审核网站调用等; 6.申请加入电影网址大全的网站按最后点进的时间排序首页和分类显示链接; 7.分类以昨日点入时间为准,每晚十二点后生成静态; 8.每来访一个IP,就会自动排到第一,当天来路次数不同,显示颜色也不同:有1次即显示,10次即套蓝色,30次即套红色加粗; 9.首页白天3分钟,晚上5分钟自动更新一次,全站24小时手动更新一次; 10.站内搜索功能,方便用户找到自己想要的网址; 11.程序全面优化和升级,增强对搜索引擎的收录功能; 12.流量互换功能,最大程度互换流量。 哇塞电影网址大全系统后台功能详细说明: 网站管理系统: 1.网站基本信息,说明:里面设置,网站标题,LOGO,关键词,统计代码,版权信息! 2.图片广告管理,说明:网站所有图片广告修改的地方,在首页可以看到所有图片广告,其中ads09是在网址内页显示!其它的都在首页和分类页有位置显示! 3.顶部文字广告管理,说明:这里的文字,首页,特别推荐里面显,分类首页和分类页,记得,改后要在生成html管理里,生成一下首页! 4.添加商家文字广告,说明:这里的文字,首页,中间部分,广告,那里的文字,在图片广告下面,一行七个! 5.管理商家文字广告,说明:修改删除商家文字广告! 6.管理帐号设置,说明:管理员用户名,密码的修改! 9.客户留言管理,说明:留言本的回复,修改和删除! 哇塞电影网址大全系统网站分类管理: 1.类别添加管理,说明:分类添加删除管理,这里说明一下添加时有首页显示,导航就显示在首页上面,添加时选酷站显示,就在首页下面酷站里调用! 2.类别删除管理,说明:删除不想要的分类! 3.类别修改管理,说明:分类修改里,有显示,[首][酷]就是上面说明的首页显示,和酷站显示! 哇塞电影网址大全系统网址管理系统: 1.添加网址链接,说明:用于后台管理员手工添加网址 2.添加实用查询|管理实用查询,说明:添加后在首页实用工具里显示! 3.添加名站导航|管理名站导航,说明:添加后在首页名站导航里显示! 4.添加友情链接|管理友情链接,说明:添加后在首页下部友情链接里显示! 5.查看所有的网址,说明:包含站长加的和用户自己加的! 6.站长加入的网址,说明:站长加入的网址! 7.用户加入已审核,说明:用户提交的网址,并通过审核的,说明一下,本站有自动审核功能,开启关闭,在 网站管理系统-网站基本信息里设置! 8.用户加入未审核,说明:用户提交的网址没审的,也就是没有作上本站链接的,或是作上链接没有点击到本站的! 9.有来路入未审核,说明:一般用户认为,有来路就应当审核了,这个功能,是为了关闭自动审核而设计的,手工审核的不管有没有来路,都要站长审核的! 10.加入黑名单网站,说明:加入黑名单的网址,点击这个导航,进入后,可以删除,和取消黑名单! 11.总来路小于五次,说明:本设计用于客户作上本站链接,点入量过小,没有贡献的站,可以多选删除! 12.常用维护共三项,说明:(1)开通所有未审的,一般不用这个,如果想要提交的站就收录,可以点击这个功能!(2)删除重复的网站,有一些站长提交过了,又提交了多次或是用二级域名提交,这样可以删除重复的网站!(3)删除所有未审核的站点,(4)清空所有网址,这个点时要注意,点击了,所有网址就都没有了! 13.站内报错,说明:用户在网址详提交网址打不开的情况页点击的! 14.站内网站搜索,说明:可以按名称,按网址,按分类,按ID号进行搜索! 哇塞电影网址大全系统模版修改管理: 首 页 模版修改 分类页模版修改 关于本站页模板 (这里建议会一些HTML知识的站长修改,如果不会不建议修改以免出错,修改时一定要备份) 生成html管理: 生成分类页面 生成生成主页及其他页 重置统计数据 清除昨天点入数据 清除总点入数据 清除总点出数据 (常用到上面两个,生成分类页和生成主页,也主是首页!每当后台修改了内容时,要马上显示出来就要手动生成,因为前台自动生成要3分钟!) 数据库管理: 备份数据库 恢复数据库 压缩数据库 (常用到备份数据库,定期备份一下,免费数据库出错找不回来数据!) 1.管理目录admin,管理员用户名5a3a,密码5a3acom 2.修改数据库名5a3acom.asa修改成自己想要的名即可! 3.后台分类建议自己修改,要不大家的分类都相同影响百度收录。 哇塞电影网址大全系统前台页面  哇塞电影网址大全系统后台管理 管理目录admin,管理员用户名5a3a,密码5a3acom 后台页面: 相关阅读 同类推荐:搜索/网址导航源码
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值