Java简单爬取网页内容（1）

最新推荐文章于 2022-05-23 17:52:24 发布

pumpkin8866

最新推荐文章于 2022-05-23 17:52:24 发布

阅读量695

点赞数 2

分类专栏： Java爬虫文章标签： java爬取网页内容

本文链接：https://blog.csdn.net/weixin_42631670/article/details/87923430

版权

Java爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

前期工作
1.初识jsoup
这个是别人的博客我觉得挺好的

Java版本：任意（我相信没人用很老的版本吧（滑稽脸）），博猪用的是2016javaee 不是ee的也行
文件：jsoup.jar
步骤1：导入jar文件
新建一个项目文件，名字自定义
在项目下建立一个lib文件，将jar文件移动到该文件目录下
出现一个提示框
选好点击Ok
点击oK，现在只是复制进去还没导入。
在这里插入图片描述
右键如图

点击Libraries →Add JARs…选择jar的文件导入搞定然后就行了。

步骤2：查看想要爬取的网页代码
示例：

在这里插入图片描述
F12就可以查看

开始写代码！

package Demo1;

import java.io.IOException;

import org.jsoup.*;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class Demo1 {
	
	public  Document getDocument(String url){
		try {
			return Jsoup.connect(url).get();
			
			
		} catch (IOException e) {
			e.printStackTrace();
			
		}
		return null;
	} 

	public static void main(String[] args) {
	
     	Demo1 t=new Demo1();//实例化
		Document doc=t.getDocument("https://s.weibo.com/top/summary?cate=realtimehot");//双引号里面填写网址
	    Elements elements1=doc.select("tbody"); //双引号里面填写母标签
	    Elements elements2=elements1.select("tr");//双银号填写子标签，大家可以多尝试
	    
	 for(int i=0;i<51;i++){
		String A  =elements2.get(i).text();
	    System.out.println(A);
	}//拿稳微博热搜示例 犹豫每一行文字都是在tr里面 所以便循环输出一键搞定
	//这个for循环的意思是选取 tbody标签下的所有tr标签从0开始循环输出 犹豫微博热搜最多50个所以只循环50次
  }
｝

最终效果图：
在这里插入图片描述

小总结：有时候你可能只是想要其中的那段文字
但是那段文字在标签的标签里面 jsoup的用法其实挺多的我这样用其实也方便
更多的用法自行百度

结束-------------------------------

pumpkin8866

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Java简单爬取网页内容（1）

Java版本：任意（我相信没人用很老的版本吧（滑稽脸）），博主用的是2016javaee 不是ee的也行文件：jsoup.jar步骤1：导入jar文件在项目下建立一个lib文件，将jar文件移动到该文件目录下出现一个提示框点击oK，现在只是复制进去还没导入。右键如图点击Libraries →Add JARs…选择jar的文件导入搞定然后就行了。步骤2：查看想要爬取的网页...
复制链接

扫一扫