java html提取_如何用JAVA从HTML源代码中提取有用的文本信息？

最新推荐文章于 2024-07-21 21:39:32 发布

llqx

最新推荐文章于 2024-07-21 21:39:32 发布

阅读量542

点赞数

文章标签： java html提取

本文链接：https://blog.csdn.net/weixin_36230923/article/details/114427026

版权

如将连接中的流读取出来方法：/**

* 将网页上的数据流转成字符串

* @param url

* @return

* @throws IOError

public String getSourceFromURL(String url) throws IOException {

URL u=new URL(url);

InputStream in=u.openStream();

StringBuilder sb=new StringBuilder();

byte[] buff=new byte[1024];

int len;

while((len=in.read(buff))!=-1){

//此处使用UTF-8编码，如果遇到像新浪这样的网站编码不是UTF-8的，就会乱，

//此处我就不过细处理了

sb.append(new String(buff,0,len,"UTF-8"));

}

in.close();

return String.valueOf(sb);

}

获得网页中的所有数据后，便可以使用正则表达式匹配了，这不得不说要正则表达式灵活运用才方能不用代码进行各种处理了，我的正则表达式都有一段时间没有，又陌生了：

此处我就随便写一个获取标题的正则吧，不过没有做什么就近匹配，如果页面有多个能匹配到的标签，那么可能会匹配不到想要的

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

llqx

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

java html提取纯文本_Java实现从Html文本中提取纯文本的方法

weixin_28881989的博客

02-13

1070

1、应用场景：从一份html文件中或从string(是html内容)中提取纯文本，去掉网页标签；2、代码一：replaceall搞定//从html中提取纯文本public static string stripht(string strhtml) {string txtcontent = strhtml.replaceall("?[^>]+>", ""); //剔出的标签txtcont...

java提取源文件_关于Java：从.jar文件中提取源代码

weixin_42361133的博客

03-02

4051

有没有办法从可执行的.jar文件(Java ME)中提取源代码？但是请注意，这样做可能是非法的，具体取决于您是否拥有罐子的版权，居住的国家和目的。如果它是开源的，请从开发人员那里获取源代码。否则"将对遵守EULA表示满意"。使用JD GUI。打开应用程序，将您的JAR文件拖放到其中。没有JD GUI，有没有办法从.jar获取源代码？@ZulqurnainJutt使用@elachances答案ja...

参与评论您还未登录，请先登录后发表或查看评论

java实现html的文本提取-Demo

DRD

09-10

1106

java实现html的文本提取-Demo package com.ydfind.util; import com.alibaba.druid.util.StringUtils; import org.jsoup.Jsoup; import org.jsoup.helper.StringUtil; import org.jsoup.nodes.Element; import org.jsoup.nodes.Node; import org.jsoup.nodes.TextNode; import org.j

java html提取_手把手教你从零开始用Java写爬虫

weixin_39907131的博客

11-14

260

本文将手把手地教大家从零开始用Java写一个简单地爬虫！目标爬取全景网图片，并下载到本地收获通过本文，你将复习到：IDEA创建工程IDEA导入jar包爬虫的基本原理Jsoup的基本使用File的基本使用FileOutputStream的基本使用ArrayList的基本使用foreach的基本使用说明爬虫所用的HTM解析器为Jsoup。Jsoup可直接解析某个URL地址、HTML文本...

Python爬虫（3） --爬取网页文本

最新发布

m0_74896766的博客

07-21

3705

指定url：找到网页地址发送请求：requests请求获取你想要的数据：文本接收，请求到的内容数据解析：xpath语言：定位到目标位置re正则匹配：精准取出目标内容，去除杂质。

java提取html页面中有效的信息

g3230863的博客

09-29

852

第一种方式，通过正则来获取第二种：通过jsoup来抓取 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.13.1</version> </dependency> mpor...

java保存网页_JAVA 获取网页源代码保存到本地文件

weixin_39793553的博客

02-12

153

package httpget;import java.io.BufferedReader;import java.io.File;import java.io.FileNotFoundException;import java.io.FileOutputStream;import java.io.IOException;import java.io.InputStreamReader;impor...

MAFS.zip_java 人脸识别_java 特征提取_mafs_人脸识别 java

09-23

特征提取是人脸识别的关键环节，它涉及到从原始图像中挑选出对识别至关重要的信息。在“memetic算法”的框架下，这一过程旨在寻找最佳的特征子集，这些子集能够最大限度地保留人脸的辨识信息，同时减少计算复杂性。 ...

图像识别与处理Java代码.rar_java 图像处理_java图像处理_java图像识别_java源代码_图像识别

09-24

4. **Java源代码**：压缩包中的`.doc`文档可能包含了Java源代码的详细解释和实现步骤，这对于初学者理解代码逻辑和应用图像处理技术至关重要。通常，源代码会涵盖图像的加载、预处理、特征提取和识别过程。 5. **...

JAVA源码文本-boilerpipe_source_code:文本提取源代码。技术文档。Java

05-21

这个开源项目，正如其标题“JAVA源码文本-boilerpipe_source_code”所示，提供了文本提取的源代码，对于需要处理大量网页内容的应用程序，如搜索引擎、新闻聚合器或信息提取系统，是非常有价值的。 Boilerpipe的...

以图搜图Java+html源代码

06-10

【以图搜图Java+html源代码】是一个项目，它结合了Java和HTML技术来实现一个功能，允许用户通过上传一张图片来搜索相似的图片。这个功能在许多领域都有应用，比如搜索引擎、图像识别和社交媒体。下面将详细介绍这个...

在Java代码中解析html,获得其中的值

热门推荐

zhanglei500038的博客

07-09

4万+

有时我们获取到了页面需要在Java代码中进行解析,获取html中的数据,Jsoup是一个很方便的工具. 一、什么是Jsoup？官网网站：http://jsoup.org/ 可在官网下载对应的jar 通俗的将Jsoup就是一个解析网页的东西二、示例 1.页面,通过查询获取到了一些数据: 2.源码,这是

java html中提取文本,如何从网页中提取文本内容？

weixin_36127082的博客

03-02

138

I'm developing an application in java which can take textual information from different web pages and will summarize it into one page.For example,suppose I have a news on different web pages like Hind...

Java之提取html中的文本内容

qq_22049773的博客

02-06

2732

思想如下：使用jsoup对html文档进行解析，每个html标签（Element）、文本（TextNode）都抽象成一个Node，每一个Node都含有childNodes()方法来枚举其包含的Node，这里通过递归来提取文本内容，对于非TextNode的Node，我们遍历其孩子Node，对于TextNode我们直接返回结果。其中jsoup的gradle依赖为compile 'org.j...

java 使用 jsoup 解析html页面采集数据存到数据库

weixin_43607664的博客

09-15

359

pom依赖 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.8.3</version> </dependency> <dependency> <groupId>commons-io

java生成word,html文件并将内容保存至数据库 (http://blog.163.com/whs3727@126/blog/static/729915772007325112014115/)

bbk_7887的专栏

04-23

2320

java生成word,html文件并将内容保存至数据库 2007-04-25 11:20:14| 分类： Java|举报|字号订阅 http://hi.baidu.com/litertiger/blog/item/35ea8a546ba4e81f3a2935d4.html 在最近的一个项目中需要将一段字符类型的文本存为word，html并要将wo

java获取HTML纯文本内容 body

weixin_37178674的博客

12-19

7404

java提取HTML纯文本

保存html内容到数据库

jjavaboy的专栏

01-06

2万+

一、获取页面的html内容 //本例使用jquery var htmlContent = $("html").html(); 如果页面是放在iframe里的，如下用法 frameId是iframe元素的id， var htmlContent = $(document.getElementById('frameId').contentWindow.document.body).parent

document对象常用的属性和方法

weixin_44237840的博客

05-05

1万+

一、对象的属性 1.document.title //设置文档的标题（HTML的title标签） 2.document.bgColor //设置背景页面的颜色 3.document.fgColor //设置前景色（文本颜色） 4.documen.URL //设置URL属性在同一个窗口打开其他页面 5.document.linkColor //未点击过的链接颜色 6....

文本分类Java源代码实现单标签多类别自动分类

资源摘要信息:"本资源提供了关于文本分类的Java源代码实现，主要面向于单标签多类别文本的自动分类。在信息技术领域，文本分类是一种基础而重要的任务，它涉及到将文本数据根据其内容的相似性或者特征归入预先定义好...