JSoup 获取正文，自动识别页面编码Charset

最新推荐文章于 2024-07-01 09:14:08 发布

tstudy

最新推荐文章于 2024-07-01 09:14:08 发布

阅读量5.7k

点赞数

分类专栏：抓取采集 html解析文章标签： jsoup html解析

本文链接：https://blog.csdn.net/u010061897/article/details/9116879

版权

本文介绍了如何利用JSoup库解析HTML页面，自动识别并处理页面的字符集，确保正确提取正文内容。通过示例代码展示了如何获取页面的charset，并使用正则表达式提取关键信息。

摘要由CSDN通过智能技术生成

public static String getContent(String url) throws Exception{
		HttpClient hc = new HttpClient();
		HttpMethod hm = new GetMethod(url);
		int statusCode = -1;
		byte[] result = null;
	    statusCode = hc.executeMethod(hm);
	    if(statusCode != HttpStatus.SC_OK)//判断返回
	       return "";
	    if(hm.getResponseBody()!=null){//获取页面数据
	      result = hm.getResponseBody();//hm.getStatusLine()――http状态和请求结果
	    }
	    String charset = JsoupUtils.getCharset(url); //通过jsoup获得页面的charset
		hm.releaseConnection();
		String data = null;
		if(result != null)              
	       data = new String(result,charset);//字符编码设置
		return data;
	}

[代码] 获得字符集

/**
	 * 获得字符集
	 */
	public static String getCharset (String siteurl) throws Exception{
		URL url = new

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

tstudy

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

基于百度AI的内容审核平台+Jsoup网络爬虫开发的一个自动审核小说程序（以纵横中文网为例）

qq_45091038的博客

07-06

1363

这个程序是我的毕业设计所设计的一个程序，由于时间原因，可能有些地方或者细节没有考虑清楚，请各位多多包涵程序简介此程序使用Java语言进行开发，具体的功能有以下几点： 1、利用网络爬虫技术获取指定网页（纵横中文网）上的指定数据（小说），然后将爬取到的小说以小说名称、章节的形式保存在本地的硬盘中，并且利用数据库对小说的储存位置进行存放。 2、利用百度人工智能中的内容审核平台里的文本审核功能对爬取的小说进行审核，输入小说名称后，系统自动在数据库里面通过名字查找小说的每一章节在本机硬盘的储存位置。然后根据储存位

super_song的博客

05-03

2158

文章目录一、ElasticSearch 简介1.了解创始人 Doug Cutting2.Lucene 简介3.ElasticSearch 简介4.ElasticSearch 和 Solr 的区别5.了解ELK二、软件安装1.ElasticSearch2.ElasticSearch Head3.Kibana三、ElasticSearch 使用详解1.ES 核心概念文档索引倒排索引ik分词器2.命令模式的使用Rest风格说明cat命令关于文档的基本操作（重点）复杂操作查询四、SpringBoot 集成 Elas

参与评论您还未登录，请先登录后发表或查看评论

网页正文提取 jsoup实现

12-10

linklist.java是入口函数，有界面，我自己用JSOUP实现的网页正文提取。

一种提取HTML网页正文的方法

marho

11-17

1566

package getContent;import java.io.IOException; import java.util.HashMap; import java.util.Stack;import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup

meta标签中获取charset

tianya111cy的专栏

12-21

447

/** * get response charset * * @param responseBody * @return */ private String getResponseCharset(String responseBody) { String charset = "UTF-8"; String regex = "^(.*)(<meta\\s+http-equiv=...

使用Jsoup提取文章大纲

热门推荐

编程纯手工，拒绝复制粘贴

07-12

4万+

HTML在运用于web端，手机端越来越频繁。采用python等脚本语言，能够读取HTML代码。这里介绍采用java程序来读取HTML代码，由于java的通用性，可以很好的解析HTML中的数据，并存放到数据库中。读取网页中的HTML代码，见博客【JAVA】JAVA程序根据url请求网站HTML页面【开发环境】 1.Eclipse ，JDK1.7，Windows。 2.第三方jar包，js

crawler4j抓取页面使用jsoup解析html时的解决方法

10-26

问题的核心在于，`crawler4j`在抓取网页内容时，可能无法自动识别或适配网页的实际编码，导致在解析时出现错误。默认情况下，如果HTTP响应中没有指定编码，`crawler4j`可能会将内容视为UTF-8，而实际上，页面可能是...

Jsoup在移动端数据抓取中的应用详解

在当今这个信息爆炸的时代，数据抓取已经成为了获取有价值信息的重要手段。JavaScript Object Notation (JSON) 和 Scalable Vector Graphics (SVG) 已经成为了数据交换的标准格式，而Jsoup库正是连接HTML文档和JSON...

java Jsoup实现新闻网页的爬取，标题，正文，图片，新闻时间，网页链接的解析示例

yxmao的博客

01-20

1万+

一下代码为一个Jsoup爬取新闻网页的简单示例，可直接运行。 import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.net.MalformedURLException; import jav

javaweb使用jsoup爬取网页数据

weixin_799847245的博客

07-31

2372

本人原创,转发请注明地址https://blog.csdn.net/weixin_41442935/article/details/97908344 最近做了一个爬取网站数据,主要是爬取新闻方面. 首先导包,web方面的自行百度,这里用到的是jsoup的包进行爬取 <dependency> <groupId>org.jsoup</gro...

使用Jsoup解析HTML页面

Kiven's blog

09-01

1486

在写Android程序时，有时需要解析HTML页面，特别是那类通过爬网站抓取数据的应用，比如：天气预报等应用。如果是桌面应用可以使用htmlparser这个强大的工具，但是在Android平台上使用会出现错误；另一种办法是使用正则表达式来抽取数据；再有一个办法是纯字符串查找定位来实现。文本将要介绍的是使用Jsoup这个开源的解析器来实现。 Jsoup既可以通过一个url网址，也可以通过存储h

使用jsoup抓取和解析网页数据

小易

07-09

3454

jsoup是一个强大的Java库，可以用于解析HTML文档。它提供了许多常用的API，用于选择、遍历和修改HTML文档中的元素和属性。选择器（Selector）API：用于根据CSS选择器语法选择HTML元素。属性（Attribute）API：用于获取、设置和移除HTML元素的属性。遍历（Traversal）API：用于遍历HTML文档中的元素。操作（Manipulation）API：用于修改HTML文档中的元素和属性。接下来，我们将逐一介绍这些API，并给出相应的代码示例。

使用Jsoup.jar写的工具类(java提取Html中的文本)

weixin_30730151的博客

04-21

301

package cn.anzhuoyue.jfinalBlog.util; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.safety.Whitelist; import com.jfinal.kit.S...

使用Jsoup过滤HTML标签，获取纯文本

沉默王二

12-06

1万+

通常情况下，把HTML富文本内容保存到数据库字段时，会自带一些HTML标签，然后将这些内容再次显示到网页上时，就能够保持文本在富文本中编辑时的HTML格式。这种做法毫无疑问是没有问题的，但有的时候，我们需要将HTML标签去掉，只取纯文本内容。这个时候，该怎么做呢？比如说有这样一段简单的HTML富文本内容，带有p标签（它表示p标签内部的文本是一个段落），但有的时候，我们在显示该内容的缩略文本

jsoup html 编码,jsoup的奇怪编码行为

weixin_32533957的博客

06-25

295

我使用jsoup从不同页面的html源代码中提取了一些信息。它们大多数是UTF-8编码的。其中之一是使用ISO-8859-1编码的，这会导致一个奇怪的错误(在我看来)。包含错误的页面是：http : //www.gudi.ch/armbanduhr-metall-wasserdicht-1280x960-megapixels-p-560.html我用以下代码阅读了所需的String：Documen...

jsoup 获取css

05-26

使用 jsoup 获取 CSS 代码的方法如下： 1. 首先，需要使用 jsoup 的 `connect` 方法连接到需要获取 CSS 的网页。例如： ``` Document doc = Jsoup.connect("https://www.example.com").get(); ``` 2. 然后，可以使用 `doc.select` 方法来选择需要获取的 CSS 代码。例如： ``` Elements links = doc.select("link[rel=stylesheet]"); ``` 这个例子会选择所有 `rel` 属性为 `stylesheet` 的 `link` 标签。 3. 最后，可以使用 `links.attr("href")` 方法获取选中标签的 `href` 属性，即 CSS 文件的链接。例如： ``` String cssUrl = links.attr("href"); ``` 完整的代码示例如下： ``` Document doc = Jsoup.connect("https://www.example.com").get(); Elements links = doc.select("link[rel=stylesheet]"); String cssUrl = links.attr("href"); ``` 注意，获取到的 CSS 代码可能会被压缩或者经过其他处理，需要根据具体情况进行解析。