之前发过一篇文章:利用String类制作简单的网络爬虫
这是是基于String类里的substring()方法对字符串进行截取,从而得到想要的内容。
这种方法如果只是截取简单数据的话,还是可以实现的。
但是如果我要获取指定的数据(这个数据可能成千上万条),这时后用String类里面的方法就会很麻烦,而且要编写的代码会变的非常多。
现在我们要引用一个网页解析的工具类来帮助我们更方便的解析网页。
下载 HtmlParser类
官方地址:http://htmlparser.sourceforge.net/
在线API文档:http://htmlparser.sourceforge.net/javadoc/index.html
进去htmlparser下载1.6的版本
下载完成之后解压缩出来
导入jar包
右键单击项目
创建一个Folder ,名字为 lib
将 htmlparser.jar 拷贝进去
右键项目->Properties->java Build Path
添加一个jar包
最后OK就可以了
在代码上创建一个 Parser 对象试试看看行不行
这样就把引用了网上下载的jar包,现在就可以对网页进行解析了。
解析网页
这里随便找个 电影网站 来进行测试
获取单个视频的下载链接
- 进去 日韩电影 这里
然后随便打开一个 电影 标题,我这里就选择第一个
- 打开之后发现这个页面是介绍 电影的
/20170129/53099.html
F12进去调试模式
- 分析下载地址