JavaURL爬虫

最新推荐文章于 2021-03-16 07:12:20 发布

te_ar

最新推荐文章于 2021-03-16 07:12:20 发布

阅读量1.3k

点赞数 1

分类专栏： Java实验文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_44117953/article/details/107620269

版权

Java实验专栏收录该内容

1 篇文章

订阅专栏

JavaURL爬虫

JavaURL爬虫实验

实验目的：利用Java URL类爬取网页html源代码，并对其中内容进行提取。
实践的内容或要求：
1.编写界面，输入一个网址，能够爬取该网址上所有的HTML源代码。
2.对网址中的文本进行提取。
3.建立敏感词库，用文本文件保存。
4.将该网址所对应的文本中的敏感词提取并高亮显示。
5.编写文本文件，可以存入多个网址；程序可爬取这些网址中的文本内容，将敏感词记录存入另一个文件，格式自定。
6.编写一个主界面,整合上述功能。

其他功能

除实验要求外增加的功能：
1、文件保存。可以保存从html源码中提取的内容。
2、可以下载部分网页图片（img标签与background属性）

类简单说明

Crawler：爬取html源码、提取内容、下载图片
BasicFrame：界面显示
hlListener：高亮
rfListener：读取文件
sfListener：保存文件
main：主函数
GUIUtil：居中
Probar：进度条显示

预览

在这里插入图片描述

Github链接

Github链接：https://github.com/tear-wy/JavaURLCrawler

**

lib中beautyeye_lnf.jar来自于https://github.com/JackJiang2011/beautyeye.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。