使用HttpParser类解析网页


之前发过一篇文章:利用String类制作简单的网络爬虫

http://blog.csdn.net/gfd54gd5f46/article/details/54729874

  • 这是是基于String类里的substring()方法对字符串进行截取,从而得到想要的内容。

  • 这种方法如果只是截取简单数据的话,还是可以实现的。

  • 但是如果我要获取指定的数据(这个数据可能成千上万条),这时后用String类里面的方法就会很麻烦,而且要编写的代码会变的非常多。





现在我们要引用一个网页解析的工具类来帮助我们更方便的解析网页。

下载 HtmlParser类

官方地址:http://htmlparser.sourceforge.net/

在线API文档:http://htmlparser.sourceforge.net/javadoc/index.html

下载地址:https://sourceforge.net/projects/htmlparser/files/

1



进去htmlparser下载1.6的版本

2



下载完成之后解压缩出来

3


导入jar包


右键单击项目

4



创建一个Folder ,名字为 lib


将 htmlparser.jar 拷贝进去

5



右键项目->Properties->java Build Path

6



添加一个jar包

7



最后OK就可以了

在代码上创建一个 Parser 对象试试看看行不行

8

这样就把引用了网上下载的jar包,现在就可以对网页进行解析了。


解析网页



这里随便找个 电影网站 来进行测试

http://www.dytt8.net


获取单个视频的下载链接
  • 进去 日韩电影 这里

9



然后随便打开一个 电影 标题,我这里就选择第一个

  • 打开之后发现这个页面是介绍 电影的
/20170129/53099.html

10



F12进去调试模式

  • 分析下载地址

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值