java爬虫入门--用jsoup爬取汽车之家的新闻

最新推荐文章于 2022-10-27 00:08:23 发布

findhappy117

最新推荐文章于 2022-10-27 00:08:23 发布

阅读量637

点赞数

文章标签：爬虫新闻 jsoup

本文链接：https://blog.csdn.net/findhappy117/article/details/79295946

版权

本文介绍了如何使用Java的HTML解析库jsoup从汽车之家网站抓取新闻。内容包括jsoup的主要功能，如解析HTML、使用CSS选择器等，并通过一个名为GrapNews的主程序演示了爬取过程，该程序封装了网页内容并提供了运行示例。

摘要由CSDN通过智能技术生成

概述

使用jsoup来进行网页数据爬取。jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

详细

代码下载：http://www.demodashi.com/demo/10220.html

jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。

jsoup的主要功能如下：

1. 从一个URL，文件或字符串中解析HTML；

2. 使用DOM或CSS选择器来查找、取出数据；

3. 可操作HTML元素、属性、文本；

jsoup是基于MIT协议发布的，可放心使用于商业项目

第一步：项目预览

第二步：代码实现

主程序为GrapNews类，实现了从汽车网摘取相关内容的功能。GrapNews有main函数，执行即可。

package net.sinolbs.ycd.news;

import java.net.URLEncoder;
import java.util.ArrayList;
import java.util.List;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/**
 * TODO
 * 2017年5月21日上午12:25:30
 */
public class GrapNews {
	
    public static boolean isContainChinese(String str) {
        Pattern p = Pattern.compile("[\u4e00-\u9fa5]");
        Matcher m = p.matcher(str);
        if (m.find()) {
            return true;
        }
        return false;
    }
    
    /**
     * 从笑话集抓取笑话
     * @param size
     * @param baseUrl
     * @param domainName
     * @param newsListClassOrId
     * @param classOrId
     * @param newsULIndex
     * @param newsContentClassOrId
     * @param titleTagOrClass
     * @param dateTag
     * @return
     */
    public static ArrayList<News> getNewsFromJokeji(int size,String baseUrl,String domainName,
    		String newsListClassOrId,int newsULIndex,
    		String newsContentClassOrId,String titleTagOrClass,String dateTag){
        ArrayList<News> newsList = new ArrayList<News>();
        Document doc;
        Element element =null;
        Element title =null;
        News news = null;
		try {
			doc = Jsoup.connect(baseUrl).timeout(10000).get();
			element = (Element) doc.getElementsByClass(newsListClassOrId).first();
	        Elements

最低0.47元/天解锁文章

findhappy117

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java爬虫入门--用jsoup爬取汽车之家的新闻

使用jsoup来进行网页数据爬取。jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。
复制链接

扫一扫