【爬虫基础】java用正则表达式处提取网页信息

最新推荐文章于 2021-03-13 06:58:32 发布

华盛顿精神科医生

最新推荐文章于 2021-03-13 06:58:32 发布

阅读量1k

点赞数

分类专栏： Java 文章标签：正则表达式

本文链接：https://blog.csdn.net/m0_47202518/article/details/108330913

版权

本文介绍了如何使用Java的正则表达式从网页中提取信息，特别是针对豆瓣Top250电影名的抓取。虽然没有使用解析器（如Jsoup），但通过JDK9的net.http包获取网页内容。然而，由于电影名的复杂性，正则表达式难以匹配所有情况，建议使用解析器以提高爬取效率。

摘要由CSDN通过智能技术生成

在网络爬虫这一方面，java并不如Python好用。本文只用正则表达式提取信息，如果想要更精确地从html文件中提取信息，必须使用网页地解析器。可以通过第三方库，比如Jsoup等。

我们提取出豆瓣的Top250电影名

没有网页解析器，这是一件比较困难的事情。我们首先获得网页。JDK9开始新增的net.http包,这比原来的方式要简单许多
package newHTTP;

import java.io.IOException;
import java.net.URI;
import java.net.URLEncoder;
import java.net.http.HttpClient;
import java.net.http.HttpRequest;
import java.net.http.HttpResponse;

public class HttpClientDoPost
{
   
	public static void main(String[] args) throws InterruptedException,IOException
	{
   
		doPost();
	}
	
	public static void doPost() throws InterruptedException
	{
   
		try
		{
   
			//创建客户机
			HttpClient client=HttpClient.newHttpClient();
			//定义请求，配置参数
			HttpRequest request=HttpRequest.newBuilder()
					.uri(URI.