使用HttpParser类解析网页

最新推荐文章于 2024-05-28 09:36:42 发布

Lingdu丶

最新推荐文章于 2024-05-28 09:36:42 发布

阅读量5.5k

点赞数 3

分类专栏： javaSE 文章标签： javase 网络爬虫 htmlparser

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gfd54gd5f46/article/details/54960538

版权

之前发过一篇文章：利用String类制作简单的网络爬虫

http://blog.csdn.net/gfd54gd5f46/article/details/54729874

这是是基于String类里的substring()方法对字符串进行截取，从而得到想要的内容。
这种方法如果只是截取简单数据的话，还是可以实现的。
但是如果我要获取指定的数据（这个数据可能成千上万条），这时后用String类里面的方法就会很麻烦，而且要编写的代码会变的非常多。

现在我们要引用一个网页解析的工具类来帮助我们更方便的解析网页。

下载 HtmlParser类

官方地址：http://htmlparser.sourceforge.net/

在线API文档：http://htmlparser.sourceforge.net/javadoc/index.html

下载地址：https://sourceforge.net/projects/htmlparser/files/

进去htmlparser下载1.6的版本

下载完成之后解压缩出来

导入jar包

右键单击项目

创建一个Folder ，名字为 lib

将 htmlparser.jar 拷贝进去

右键项目->Properties->java Build Path

添加一个jar包

最后OK就可以了

在代码上创建一个 Parser 对象试试看看行不行

这样就把引用了网上下载的jar包，现在就可以对网页进行解析了。

解析网页

这里随便找个电影网站来进行测试

http://www.dytt8.net

获取单个视频的下载链接

进去日韩电影这里

然后随便打开一个电影标题，我这里就选择第一个

打开之后发现这个页面是介绍电影的

/20170129/53099.html

F12进去调试模式

分析下载地址

最低0.47元/天解锁文章

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
2
评论
使用HttpParser类解析网页

HtmlParser类解析网页
复制链接

扫一扫

专栏目录

博客等级

码龄14年

106
原创

260
点赞

468
收藏

225
粉丝

关注

私信

热门文章

分类专栏

最新评论

Java----File类详解
菜菜的大数据开发之路: 前排支持一下,可以的话来我博客看看吧
在云服务器上部署项目（上）
Lingdu丶: 3年前的文章了.... centos 7 要使用 yum install firewalld firewall-config firewall-cmd --zone=public --add-port=8080/tcp --permanent 开放端口 systemctl start iptables.service #打开防火墙 systemctl stop iptables.service #关闭防火墙
在云服务器上部署项目（上）
不吃西瓜008: 我丢了，这个是centos6，现在大家都用centos7.5了，我按着这个操作的，现在防火墙崩了，安全组配置了8080也不好使了
利用String类制作简单的网络爬虫
Tisfy: 我直接一个好家伙
在云服务器上部署项目（下）
程序员之路ZZ: 可以!!很强!!

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。