package day03; import org.apache.commons.io.FileUtils; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; import org.junit.Test; import java.io.File; import java.io.IOException; public class jianxizfc { // <!--jsoup解析工具所需依赖--> // <dependency> // <groupId>org.jsoup</groupId> // <artifactId>jsoup</artifactId> // <version>1.10.3</version> // </dependency> // // <dependency> // <groupId>junit</groupId> // <artifactId>junit</artifactId> // <version>4.12</version> // <scope>test</scope> // </dependency> // // <dependency> // <groupId>commons-io</groupId> // <artifactId>commons-io</artifactId> // <version>2.6</version> // </dependency> // // <dependency> // <groupId>org.apache.commons</groupId> // <artifactId>commons-lang3</artifactId> // <version>3.7</version> // </dependency> // @Test public void qidong() throws IOException { // 使用 dom 方式遍历文档 //解析文件,获取Document对象 Document parse = Jsoup.parse(new File("C:\\Users\\LX\\Desktop\\新建文本文档.txt"), "utf-8"); //获取元素 // 1.根据id查询元素 // Element elementById = parse.getElementById("article"); //打印元素的内容 // System.out.println(elementById.text()); /*2.根据标签获取元素getElementsByTag*/ //获取多个 // Elements li = parse.getElementsByTag("li"); //打印元素的内容 // for (Element element : li) { // System.out.println(element.text()); // } // /*获取1个*/ /* Element li = parse.getElementsByTag("li").first(); 打印元素的内容 System.out.println(li.text());*/ // 3.根据class获取元素first表示获取一个通用的 // Element last = parse.getElementsByClass("last").first(); // System.out.println(last.text()); //4.根据属性获取元素getElementsByAttribute 注意除了id和class以外的都可以用这个 // Element first = parse.getElementsByAttribute("data-sudaclick").first(); // System.out.println(first.text()); //4.根据属性和属性值获取元素getElementsByAttributeValue Element nav_sports_p = parse.getElementsByAttributeValue("data-sudaclick", "nav_sports_p").first(); System.out.println(nav_sports_p.text()); } }
爬虫 使用 dom 方式遍历文档 解析文件,获取Document对象
最新推荐文章于 2024-07-20 23:59:39 发布
![](https://img-home.csdnimg.cn/images/20240711042549.png)