XBMC视频插件开发系列--网页数据解析

本文是XBMC视频插件开发系列的一部分,主要聚焦于HTML数据库结构分析。在实战篇中,作者指导读者如何暂停视频或查看源码,以便于分析网页结构,尤其关注页面的特定部分。
摘要由CSDN通过智能技术生成
转载自: http://bbs.htpc1.com/thread-200871-1-1.html
本文对原文进行了修改补充和完善。
【一.概述】 
由于工作的原因开始研究XBMC,XBMC是一个优秀的自由和开源的(GPL)媒体中心软件。XBMC最初为Xbox而开发,现在可以运行在Linux、OSX、Windows、Android4.0系统。 2003年,一些兴趣相投的程序员创建了这个项目。XBMC是一个非盈利的项目,由遍布世界各地的自愿者开发维护。超过50名软件开发人员为XBMC作出贡献,还有超过100名翻译人员努力扩大它的应用范围,使它支持超过30种语言(当然也包括咱们的中文)。
XBMC所有插件用的都是python语言编写的,是一种源码开放式解析语言,叫开源吧,方便修改,也方便查看,朋友肯定问我,我不懂编程怎么办?我没有写过代码啊?真的,没有关系。python for xbmc很简单。只要你不是连a,b,c,d都不会,这篇文章你肯定看得懂。
这编文章不去教大家具体怎么写插件定义和流程定义等(这个本网站就有教程),而是深入浅出的分析插件的工作原理。并提供精确实用的核心python语法,用这些语法就可以轻易的编写任何网页的插件程序这个就像令狐冲的独孤九剑,没有具体的招式,只有叫法,比如说“破剑式”,可以破一切剑招,比如说“破刀式”,可以破一切精妙的刀法。
所有的插件其实就是把网页数据进行提取,找出连接,最后找到播放文件的真实地址,交给XBMC的播放器播放。
我们大家知道,网页是用HTML写的,里面的数据包括,比如电影名称,电影图片,播放文件的真实地址列表,里面诸如导演名,演员表,电影简介等等,都是我们需要的信息,我们需要从HTML提取这些信息,去掉网站本身的播放器还有眼花缭乱的讨厌的广告,按自己的喜欢做成新的界面进行播放。由于HTML也是开源的,呵呵,我太喜欢开源了,最好所有的程序都开源,所有的秘密都可以在HTML的网页里找的到。比如我经常看见朋友问,那个视频很好,由于网页里没有下载链接,在哪里下载啊,只能够用网页播放器看,不能够保存下来看啊,然后就是网页广告太多了,非常讨厌啊,怎么去掉广告啊,你学会了插件的编写,你可以任意的下载所有网页的视频文件,是不是很给力啊,呵呵,其实真的,秘密都在HTML里面。而python最强大的功能就是处理HTML。

【二.HTML数据库结构分析】
xbmc视频插件需要的数据就是最后的网址,就是需要播放的的a.真实下载文件的地址,b.菜单的选择就是视频的名称,c.还有就是精美的影片海报,这是最起码的三个基本需要的数据,这个如果有多项的话,应该是一个列表。
1.这里给您一个地址,您打开看看
http://qiyi.soooner.com/videos2/movie/20130326/83ab91dc7bed45d9875f22d5d9eda6bf.f4v
是否神奇发生了呢? 您可以自己试试,哈哈
2.稍微有些数据库经验的朋友知道,数据库结构里有数据库名称,字段,字段类型,
最后是数据项,如果你有一个数据项列表如下
电影名称      电影图片地址         电影真实播放地址
【大上海】      http://....12.JPG   http://.....34.F4V
。。。         。。。                  。。。
。。。         。。。                  。。。
如果所有的网页,你都轻易的找到以上的数据结构的话,或者直接给您一个SQL SERVER的数据库那就不要用python了,直接用SQL查询语句好了,当然不会那么轻易,所有各大视频网站不是为你开的,也不会提供这么漂亮精确的查询字段给您。当然我们有解决的办法呵呵,其实python就是HTML的数据查询语言
3.任何的网页,都有一个查看源代码的功能,您随便打开一个网页,然后到菜单里选择查看源代码,就会出现很多很多信息,看得眼花缭乱的,有点眼晕吧。我们需要具体的分析,提取出有用的信息这就是XBMC视频插件的大部分代码所要做的工作。
4.朋友肯定会问,HTML,网页里会有这些东西吗?难道直接查找F4V找得到吗?当然不会找到,因为网站为了索引,比如说,电影,电视剧,片花。。,战争,青春,爱情。。都会有不同的页面,不同的链接网页页面,我们需要分析,查找,过滤所有的这些HTML里面的信息。
5.看起来好像很复杂哦,如果您觉得自己没有这个耐心去分析网页,那您就不必再看下去了,因为插件就是分析网页,找出链接,得出最后有用的数据组类
嗯,的确,当然需要实例,如果只谈理论,没有实例,朋友会骂我光说不练假把式的。我现在选择编写一个插件,【爱奇艺插件】。
为什么选择它呢?因为我试过了中文插件包里的【奇艺】插件,请注意我加亮部分奇艺变成了爱奇艺,因为奇艺改版了,在百度老师处搜索一下就知道了,奇艺变成了爱奇艺所以原来插件不起作用了,不单单是WWW.QIYI.COM变成了WWW.IQIYI.COM那么简单而是原来的数据结构也发生了变化,原插件就无法读取了,当然那位老师希望他能够更快的更新。原本想改改那个插件就用算了,但是第一尊重原创,第二分析另外一个程序老师的程序远比自己写一个麻烦的多。
本人比较偏爱奇艺的,因为它的影片大多都是高清的,超清的。我就是以这个【爱奇艺】插件为实际例子,编写一步,写一步心得,当这篇文章完成的时候朋友就会获得整个可以使用的【爱奇艺】中文视频插件了,还明白整个的编程思路以及原理,这样不知道朋友们满意吗?
所以现在我们要做的事情是分析破解【爱奇艺】网页,包括里面的HTML所有秘密真像都浮现出来,没有了广告,吓,晕,不知道【爱奇艺】百度的大哥们会不会找我麻烦,因为我要破解他们的运营网站,可能要找麻烦也找版主的麻烦了,但是我觉得不应该了,因为这些资料都在HTML网页里,既然可以用WEB浏览器来读取,都是公开的,为什么我不可以用我自己的程序读取呢?为什么我非要用官方的播放器来播放呢?我难道用自己的播放器播放不可以吗?(特别声明,别人的会员节目我们就不要去偷了,都是要赚钱,要生存的,大家理解吧,只取免费的那一部分)
------------------------
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寒江蓑笠

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值