之前我们已经使用过htmlparser进行简单的html析取,但是现在我们已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
jsoup 的主要功能如下:
1. 从一个 URL,文件或字符串中解析 HTML;
2. 使用 DOM 或 CSS 选择器来查找、取出数据;
3. 可操作 HTML 元素、属性、文本;
具体的操作可以查看jsoup中文开发指南http://www.open-open.com/jsoup/
使用之前我们要先引用一下jar包,用之前介绍过的mevan方法就可以了。这里就不多累赘,我们来找一个电影网页(比如电影天堂http://www.dytt8.net/index1.htm)来抓取其中的电影下载地址,点击更多按钮,查看2016新片的更多内容。发现里面还有157页的电影。
- 第一步,我们要先获取每一分页的地址,查看网页源代码,找到能唯一标识这157页地址的代码。我们找到一个含有属性值为“sldd”的“name”属性标签,其下有157个“option”标签,这就是这157个分页的地址。
代码实现如下:
public static List<String> getFenye(){
List<String> pageList = new ArrayList<>(); //用一个动态数组储存得到的分页地址
Document document;
try
{
document = Jsoup.connect("http://www.ygdy8.net/html/gndy/dyzz/index.html").get();
//找到第一个(get(0))含有属性名为 name ,属性值为 sldd 的元素,然后再找到这个元素中含有的所有option元素(即所有的分页地址)
Elements elements = document.getElementsByAttributeValue("name", "sldd").get(0).getElementsByTag("option");
//测试得到的所有分页
//System.out.println(elements.size());
for (int i = 0; i < elements.size(); i++)
{
Element element = elements.get(i);
//得到所有的分页地址存到数组中(将获取到的数据进行拼接得到完整的地址)
pageList.add("http://www.ygdy8.net/html/gndy/dyzz/"+element.attr("value"));
// System.out.println("http://www.ygdy8.net/html/gndy/dyzz/"+element.attr("value"));
}
//System.out.println(pageList);
} catch (IOException e)
{
e.printStackTrace();
}
return pageList;
}
测试一下得到的数据,System.out.println(“http://www.ygdy8.net/html/gndy/dyzz/“+element.attr(“value”));
- 第二步,得到分页地址后,我们就要从每一分地址中获取每一部电影的网页地址,查看一下网页源代码,同样找到能够唯一标识他们的属性,找到一个属性值为“ulink”的“class”属性。(每一分也大概有25部的电影)
代码实现如下:
/*
* 功能:用来读取 http://www.ygdy8.net/html/gndy/dyzz/index.html
* 用来读取每一分页中的具体电影地址
*/
public static List<String> getIntro(String pageUrl){
//同样将同一分页中的电影地址存到一个动态数组中
List<String> allMOveUrl = new ArrayList<String>();
Document document;
try
{
document = Jsoup.connect(pageUrl).get();
//得到所有的属性值为ulink的class属性
Elements elements = document.getElementsByClass("ulink");
//测试得到的数量
//System.out.println(elements.size());
for (int i = 0; i < elements.size(); i++)
{
Element element = elements.get(i);
//System.out.println("http://www.ygdy8.net" + element.attr("href"));
//将电影地址添加到动态数组中(要将获取到得数据进行拼接成完整的地址)
allMOveUrl.add("http://www.ygdy8.net" + element.attr("href"));
}
//System.out.println(allMOveUrl);
} catch (IOException e)
{
// TODO Auto-generated catch block
e.printStackTrace();
}
return allMOveUrl;
}
- 第三步,得到具体的电影地址后,就要从网页中获取电影的下载地址,找到能唯一标识他的属性。
/*
* 功能:用来读取http://www.ygdy8.net/html/gndy/dyzz/20170129/53080.html
* 获取电影网址中的下载地址
*/
public static void getDownloadUrl(String indroUrl){
try
{
Document document = Jsoup.connect(indroUrl).get();
//获取href属性中属性值中含有ftp的属性
Elements elements = document.getElementsByAttributeValueMatching("href", "ftp");
//System.out.println(elements.get(0).attr("href"));
for (int i = 0; i < elements.size(); i++)
{
Element element = elements.get(i);
System.out.println(element.attr("href"));
}
} catch (IOException e)
{
// TODO Auto-generated catch block
e.printStackTrace();
}
}
至此,三个方法已经都实现了,我们要把三个方法都连系起来,需要写两个循环;
public static void test2(){
List a = getFenye();
for (Iterator iterator = a.iterator(); iterator.hasNext();)
{
String a1 = (String) iterator.next();
List bList = getIntro(a1);
for (Iterator iterator2 = bList.iterator(); iterator2.hasNext();)
{
String b1 = (String) iterator2.next();
getDownloadUrl(b1);
}
}
}
最后,运行整个成个程序,得到网站中电影下载地址,这时候就可以批量复制到你的下载器中下载了