java爬虫抓取网页链接_(java)Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息...

Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息

此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取;

importorg.jsoup.Jsoup;importorg.jsoup.helper.Validate;importorg.jsoup.nodes.Document;importorg.jsoup.nodes.Element;importorg.jsoup.select.Elements;importjava.io.IOException;public classListLinks {public static void main(String[] args) throwsIOException {//将url赋值,初始化

String url = "http://news.ycombinator.com/";

print("url is %s...", url);//获取页面内容

Document doc =Jsoup.connect(url).get();//将a标签下的href元素取出

Elements links = doc.select("a[href]");//将含src的元素取出 例如:src="s.gif"

Elements media = doc.select("[src]");//将link标签下的href元素取出

Elements imports = doc.select("link[href]");//输出含src的元素的个数

print("\nMedia: (%d)", media.size());for(Element src : media) {//将tagname为img标签的取出,并输出

if (src.tagName().equals("img"))//第一个为tagname,输出的为img标签;第二个为src等于号后面的参数值,为此处为url网址,第三个为图片宽,第四个为图片高,第五个为alt的参数值,此例为空

print(" * %s: %sx%s (%s)",

src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),

trim(src.attr("alt"), 20));else

//若tagname不为img,则仅输出三项内容

print(" * %s: ", src.tagName(), src.attr("abs:src"));

}//输出含link>href元素的个数

print("\nImports: (%d)", imports.size());//循环每个link>href元素

for(Element link : imports) {//第一个为tagname,输出的为link标签;第二个为href等于号后面的参数值,为此处为url网址;第三个为rel等号后面的参数值

print(" * %s (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));

}//输出含a>href元素的个数

print("\nLinks: (%d)", links.size());for(Element link : links) {//第一个为tagname,输出的为a标签;第二个为href等于号后面的参数值,为此处为url网址;第三个为link标签含的文本值,若超过35个字符则,截取前35个字符

print(" * a: (%s)", link.attr("abs:href"), trim(link.text(), 35));

}

}//重写print

private static voidprint(String msg, Object... args) {

System.out.println(String.format(msg, args));

}//重写trim

private static String trim(String s, intwidth) {if (s.length() >width)return s.substring(0, width-1) + ".";else

returns;

}

}

此处还用到了java占位符:

int year=2017;

int month=6;

int day=1;

String str=String.format("今天是%d年%d月%d日,祝大家儿童节快乐!!!",

year, month, day);

代码中的String.format方法,用来使用占位符拼接字符串数据,具有类型效果的还有用于打印的:

System.out.printf("format string",  Object...args)

其中的 %d 就表示一个十进制整数位置,这个位置会由后面参数补充后组成新的字符串

以下是所有的占位符及简要说明:

%s 字符串

%c 字符

%d 整数(十进制)

%x 整数(十六进制)

%o 整数(八进制)

%f 浮点型(十进制)

%a 浮点型(十六进制)

%e 指数类型9.38e+5

%g 通用浮点类型(f和e类型中较短的)

%n 换行\r\n

%% 百分号%

%tF 日期2017-05-09

%tT 时间08:52:59

%tA 星期一

%tZ 区时CTS

%tz 区时+0800

%tY 年份2017

%ty 年份17

%tm 月份05

%td 日期09

%tH 小时08

%tM 分钟52

%tS 秒钟59

%tL 毫秒999

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值