爬虫学习-入门

语言:JAVA

软件:eclipse

首先需要到网上下载Jsoup的jar包。

下载地址:http://www.pc6.com/softview/SoftView_541368.html

之后是在eclipse中创建项目,把jar包导入lib文件夹中

提取网页中的链接:

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
/*
 * 
 * 提取链接
 */
public class Text_211 {
    public static void main(String args[])
    {
        String url="http://www.lietu.com";
        try {
            Document doc=Jsoup.connect(url).get();
            Elements links=doc.select("a[href]");
            for(Element link:links)
            {
                String linkHref=link.attr("href");
                System.out.println(linkHref);
            }
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

}

提取标题和详细页链接的完整代码

得到网页的所有的标题和链接

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

/*
 * 
 * 采集新闻
 */
public class Text_212 {
    public static void main(String args[])
    {
        //text_first("http://politics.people.com.cn/GB/1024/");
        text_second("http://china.cnr.cn/yaowen/");
    }
    //提取标题和详细页链接的完整代码
    public static void text_first(String address)
    {
        try {
            Document document=Jsoup.connect(address).get();
            Elements es=document.getElementsByClass("list_16");
            Elements links=es.select("a[href]");
            for(Element link:links)
            {
                String title=link.text();
                System.out.println(title);
                String linkHref=link.attr("href");
                System.out.println(linkHref);
            }
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        
    }
    //得到网页的所有的标题和链接
    public static void text_second(String address)
    {
        try {
            Document document=Jsoup.connect(address).timeout(5000).get();
            Element content=document.getElementById("subNav_menu");
            Elements es=document.getElementsByClass("text");
            for(Element linck:es)
            {
                Element alink=linck.getElementsByTag("a").first();
                if(alink!=null)
                {
                    System.out.println(alink.attr("href"));
                    System.out.println(alink.text());
                }
            }
            
            
            
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

}

 

转载于:https://www.cnblogs.com/liujinxin123/p/11552704.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值