前期工作
1.初识jsoup
这个是别人的博客 我觉得挺好的
Java版本:任意(我相信没人用很老的版本吧(滑稽脸)),博猪用的是2016javaee 不是ee的也行
文件:jsoup.jar
步骤1:导入jar文件
在项目下建立一个lib文件,将jar文件移动到该文件目录下
出现一个提示框
点击oK,现在只是复制进去还没导入。
右键如图
点击Libraries →Add JARs…选择jar的文件 导入搞定 然后就行了。
步骤2:查看想要爬取的网页代码
示例:
F12就可以查看
开始写代码!
package Demo1;
import java.io.IOException;
import org.jsoup.*;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class Demo1 {
public Document getDocument(String url){
try {
return Jsoup.connect(url).get();
} catch (IOException e) {
e.printStackTrace();
}
return null;
}
public static void main(String[] args) {
Demo1 t=new Demo1();//实例化
Document doc=t.getDocument("https://s.weibo.com/top/summary?cate=realtimehot");//双引号里面填写网址
Elements elements1=doc.select("tbody"); //双引号里面填写母标签
Elements elements2=elements1.select("tr");//双银号填写子标签,大家可以多尝试
for(int i=0;i<51;i++){
String A =elements2.get(i).text();
System.out.println(A);
}//拿稳微博热搜示例 犹豫每一行文字都是在tr里面 所以便循环输出一键搞定
//这个for循环的意思是选取 tbody标签下的所有tr标签从0开始循环输出 犹豫微博热搜最多50个所以只循环50次
}
}
最终效果图:
小总结:有时候你可能只是想要其中的那段文字
但是那段文字在标签的标签里面 jsoup的用法其实挺多的 我这样用其实也方便
更多的用法自行百度
结束-------------------------------