java平台利用jsoup开发包,抓取优酷视频播放地址与图片地址等信息。

/********************************************************************************************
 * author:conowen@大钟                                                                                                                          
 * E-mail:conowen@hotmail.com                                                                                                             
 * http://blog.csdn.net/conowen                                                                                                              
 * 注:本文为原创,仅作为学习交流使用,转载请标明作者及出处。      

 ********************************************************************************************/

一: 项目目的

         最近项目设计到网联网视频采集聚合,写了一个关于互联网视频的信息爬虫的小程序,以youku在线视频网站为例,实现一个java平台下的应用程序,动态抓取互联网视频信息保存到本地xml文件,构建一个多媒体播放源中心。


二:项目第三方库:

1、jsoup (HTML代码解析器)


     jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。

jsoup的主要功能如下:

·从一个URL,文件或字符串中解析HTML;

·使用DOM或CSS选择器来查找、取出数据;

·可操作HTML元素、属性、文本;

jsoup是基于MIT协议发布的,可放心使用于商业项目。

官方地址:http://jsoup.org/


2、jdom (XML构建于解析工具)

通过jdom,可以很容易地构建符合规范的xml文件,并且,jdom提供对xml文件的快速解析。

官方地址:http://jdom.org/


三:开发大体过程:

如youku(优酷)在线视频播放网站,本身就做了互联网视频聚合,就是旗下的soku,以下就已soku为例


如电视剧所对应的url地址为:http://www.soku.com/channel/teleplaylist_0_0_0_1_1.html

通过浏览器查看这个页面的HTML代码分析可知

<div class="item">
			<ul class="p pv">
				<li class="p_link"><a href="/detail/show/XMzk3MTk2" target="_blank" title="叛逃" _log_pos="1"  _log_directpos="1"></a></li>
				<li class="p_thumb"><img original="http://g1.ykimg.com/05160000532655E067379F61EC00286C" alt="叛逃"></li>
				<li class="p_status"><span class="status">正片</span><span class="bg"></span></li>
				
				<li class="p_ishd"><span class="ico__SD" title="超清"></span></li>
				<li class="p_title"><a href="/detail/show/XMzk3MTk2" title="叛逃" target="_blank" _log_pos="1"  _log_directpos="2">叛逃</a></li>
				<li class="p_actor"><label>主演:</label><a href='/v?keyword=%E9%99%88%E5%B1%95%E9%B9%8F' title='陈展鹏' target='_blank' _log_pos='1'  _log_directpos='3'>陈展鹏</a> / <a href='/v?keyword=%E5%90%B4%E5%8D%93%E7%BE%B2' title='吴卓羲' target='_blank' _log_pos='1'  _log_directpos='3'>吴卓羲</a> / <a href='/v?keyword=%E9%99%88%E8%8C%B5%E5%AA%BA' title='陈茵媺' target='_blank' _log_pos='1'  _log_directpos='3'>陈茵媺</a> </li>
				<li class="p_desc" >香港作为国际大都会,随时有可能会受到恐怖袭击。为了防止境内可能出现的恐怖活动,反恐特勤队于2009...</li>
				<li class="p_rating"><span class="ranking">9.2</span>分</li>
				<li class="p_panels">
					
					


		<div class='linkpanels site14' style='display:none;'>
			
			<div class="mask">
				<div class="ico__loading_32"></div>
			</div>
			
			<div class="panel_15">
				<ul class="linkpanel">
				<li><a href='http://v.youku.com/v_show/id_XNjg2NTcyODI0.html' target='_blank' _log_pos='1'  _log_directpos='4'>1</a></li>
					<li><a href='http://v.youku.com/v_show/id_XNjg3MDU2NzUy.html' target='_blank' _log_pos='1'  _log_directpos='4'>2</a></li>
					<li><a href='http://v.youku.com/v_show/id_XNjg3NDk4NjQ0.html' target='_blank' _log_pos='1'  _log_directpos='4'>3</a></li>
					<li><a href='http://v.youku.com/v_show/id_XNjg3OTc5MjUy.html' target='_blank' _log_pos='1'  _log_directpos='4'>4</a></li>
					
							<li class="mhandle" title="显示全部"><span>...</span></li>
				
					<li><a href='http://v.youku.com/v_show/id_XNjk4ODk2
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值