JavaURL爬虫

JavaURL爬虫

JavaURL爬虫实验

实验目的:利用Java URL类爬取网页html源代码,并对其中内容进行提取。
实践的内容或要求:
1.编写界面,输入一个网址,能够爬取该网址上所有的HTML源代码。
2.对网址中的文本进行提取。
3.建立敏感词库,用文本文件保存。
4.将该网址所对应的文本中的敏感词提取并高亮显示。
5.编写文本文件,可以存入多个网址;程序可爬取这些网址中的文本内容,将敏感词记录存入另一个文件,格式自定。
6.编写一个主界面,整合上述功能。

其他功能

除实验要求外增加的功能:
1、文件保存。可以保存从html源码中提取的内容。
2、可以下载部分网页图片(img标签与background属性)

类简单说明

Crawler:爬取html源码、提取内容、下载图片
BasicFrame:界面显示
hlListener:高亮
rfListener:读取文件
sfListener:保存文件
main:主函数
GUIUtil:居中
Probar:进度条显示

预览

在这里插入图片描述
在这里插入图片描述

Github链接

Github链接:https://github.com/tear-wy/JavaURLCrawler

**

lib中beautyeye_lnf.jar来自于https://github.com/JackJiang2011/beautyeye.

  • 1
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值