Java简单爬取网页内容(1)

前期工作
1.初识jsoup
这个是别人的博客 我觉得挺好的

Java版本:任意(我相信没人用很老的版本吧(滑稽脸)),博猪用的是2016javaee 不是ee的也行
文件:jsoup.jar
步骤1:导入jar文件
新建一个项目文件,名字自定义
在项目下建立一个lib文件,将jar文件移动到该文件目录下
出现一个提示框
选好点击Ok
点击oK,现在只是复制进去还没导入。
在这里插入图片描述
右键如图
在这里插入图片描述
点击Libraries →Add JARs…选择jar的文件 导入搞定 然后就行了。

步骤2:查看想要爬取的网页代码
示例:

在这里插入图片描述
F12就可以查看

开始写代码!

package Demo1;

import java.io.IOException;

import org.jsoup.*;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

public class Demo1 {
	
	public  Document getDocument(String url){
		try {
			return Jsoup.connect(url).get();
			
			
		} catch (IOException e) {
			e.printStackTrace();
			
		}
		return null;
	} 

	public static void main(String[] args) {
	
     	Demo1 t=new Demo1();//实例化
		Document doc=t.getDocument("https://s.weibo.com/top/summary?cate=realtimehot");//双引号里面填写网址
	    Elements elements1=doc.select("tbody"); //双引号里面填写母标签
	    Elements elements2=elements1.select("tr");//双银号填写子标签,大家可以多尝试
	    
	 for(int i=0;i<51;i++){
		String A  =elements2.get(i).text();
	    System.out.println(A);
	}//拿稳微博热搜示例 犹豫每一行文字都是在tr里面 所以便循环输出一键搞定
	//这个for循环的意思是选取 tbody标签下的所有tr标签从0开始循环输出 犹豫微博热搜最多50个所以只循环50次
  }
}

最终效果图:
在这里插入图片描述

小总结:有时候你可能只是想要其中的那段文字
但是那段文字在标签的标签里面 jsoup的用法其实挺多的 我这样用其实也方便
更多的用法自行百度

结束-------------------------------

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值