Jsoup爬取网页乱码编码格式gb2312转utf8

最新推荐文章于 2023-07-09 21:26:23 发布

poyuan97

最新推荐文章于 2023-07-09 21:26:23 发布

阅读量6.8k

点赞数

分类专栏： Java 文章标签： utf-8 gb2 乱码编码

本文链接：https://blog.csdn.net/poyuan97/article/details/78044287

版权

该项目涉及使用Jsoup从新浪财经爬取股票公告时遇到的乱码问题。网页编码为gb2312，而MongoDB存储默认为utf8。为了解决简体中文以外的字符乱码，通过编写程序进行统一的编码格式转换。

摘要由CSDN通过智能技术生成

最近做的一个项目需要爬取股票公告并存储于mongodb中用来显示，当我在用jsoup爬取新浪财经股票公告的时候，发现了乱码问题。网页链接如下http://vip.stock.finance.sina.com.cn/corp/view/vCB_AllBulletinDetail.php?stockid=600958&id=3735125，打开控制台可以看到新浪财经采用的是gb2312的编码方式，mongodb默认utf8，其实简体中文不做编码转换也是可以存储，但是例如繁体中文以及特殊字符就会出现乱码问题。于是写了段程序来统一编码格式，代码如下：

//获取公告
public String getAnnouncementFromSina(){
	String text = "";
	String url = "http://vip.stock.finance.sina.com.cn/corp/view/vCB_AllBulletinDetail.php?stockid=600958&id=3735125";
	try{
		Document doc = Jsoup.parse(new URL(url).openStream(), "GBK", url);
		Element element = doc.select("div#content").first().getElementsByTag("pre").first();
		
		//调用转换方法
		te