jsoup解析网页二

今天再次利用jsoup解析网页,解析的连接:http://so.csdn.net/so/search/s.do?q=java线程池


如图,需要解析的是标题,作者,日期,浏览次数,内容简介,网页连接

代码如下:

	Document doc = Jsoup.connect("http://so.csdn.net/so/search/s.do?p=3&q=正则表达式空格分割")
				.timeout(10000).userAgent("Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; .NET CLR 1.1.4322)").get();
		
		Element element = null;
		Elements elements = null;
		String title = "";
		String author = "";
		String authorLink = "";
		String descrition = "";
		String titleLink = "";
		String date = "";
		String lookCount = "";
		String []date_look = new String[3];

		Elements rootElements = doc.getElementsByAttributeValue("class","search-list");//获得所有class属性值是search-list的标签
		System.out.println(rootElements.size()+"================");
		for (Element childElement : rootElements) {
			element = childElement.getElementsByTag("dt").get(0);//获取标签值是dt的第一个标签
			title = element.text();
			elements = childElement.getElementsByTag("dd");//获取所有标签值是dd的标签
			author = elements.get(0).getElementsByTag("a").get(0).text();//得到第一个a标签
			System.out.println(elements.get(0).text().toString());
			
//			date_look = elements.get(0).text().toString().split("([\\s]{2,})");
			//作者:sclsmile   日期:2010-06-17 16:43   浏览 263 次
			date_look = elements.get(0).text().toString().split("   ");//分割为数组
			date = date_look[1];
			lookCount = date_look[2];
			
			authorLink = elements.get(0).getElementsByTag("a").get(0).attr("href");//得到a标签的href属性值
			descrition = elements.get(1).text();
			if (null != descrition && descrition.length() > 30) {//如果描述的字符太多,显示省略号
				descrition = descrition.substring(0, 30)+"...";
			}
			titleLink = elements.get(2).text();

			System.out.println("title :"+title);
			System.out.println("date :"+date);
			System.out.println("lookCount:"+lookCount);
			System.out.println("author :"+author );
			System.out.println("authorLink :"+authorLink);
			System.out.println("descrition :"+descrition);
			System.out.println("titleLink :"+titleLink);
			System.out.println("===============================================================================");

运行结果:

15================
作者:jianfyun   日期:2011-10-09 16:34:56   浏览 1953 次
title :PHP中用正则表达式实现类似trim的功能(包括去除全角空格)
date :日期:2011-10-09 16:34:56
lookCount:浏览 1953 次
author :jianfyun
authorLink :http://my.csdn.net/jianfyun
descrition :trim()函数去除单字节的字符效果很好,但是无法有效去除U...
titleLink :http://blog.csdn.net/jianfyun/article/details/6856194
===============================================================================
作者:michael493439861   日期:2012-05-25 17:19:36   浏览 733 次
title :Java去除子符串首尾空格方法&正则表达式
date :日期:2012-05-25 17:19:36
lookCount:浏览 733 次
author :michael493439861
authorLink :http://my.csdn.net/michael493439861
descrition :去除子符串首尾空格方法: public String rep...
titleLink :http://blog.csdn.net/michael493439861/article/details/7602693
===============================================================================
作者:edgesun   日期:2011-08-01 16:11   浏览 120 次
title :求替换行首空格为-的正则表达式
date :日期:2011-08-01 16:11
lookCount:浏览 120 次
author :edgesun
authorLink :http://my.csdn.net/edgesun
descrition :如题,要把每一行行首的空格替换成同等数量的-(有几个空格就替...
titleLink :http://bbs.csdn.net/topics/370100503
===============================================================================
作者:big_shot   日期:2014-04-16 11:13   浏览 80 次
title :字母开头接连7个数字,即格式如A1000000,我现在要求一个把跟在这个编号后面的空格删除,请问如何写正则表达式 多谢!!
date :日期:2014-04-16 11:13
lookCount:浏览 80 次
author :big_shot
authorLink :http://my.csdn.net/big_shot
descrition :字母开头接连7个数字,即格式如A1000000,我现在要求一...
titleLink :http://bbs.csdn.net/topics/390761234
===============================================================================
作者:zzbutcher   日期:2013-04-24 14:47   浏览 41 次
title :请问如何用正则表达式判断一个string是否为空或者由多个空格组成
date :日期:2013-04-24 14:47
lookCount:浏览 41 次
author :zzbutcher
authorLink :http://my.csdn.net/zzbutcher
descrition :如题,求大神指点,或者给个链接
titleLink :http://bbs.csdn.net/topics/390437360
===============================================================================
作者:lshfong   日期:2007-07-12 15:06   浏览 1522 次
title :怎样用正则表达式去除多余空格
date :日期:2007-07-12 15:06
lookCount:浏览 1522 次
author :lshfong
authorLink :http://my.csdn.net/lshfong
descrition :比如String aa="不 好 意 思 谢 谢"我想去除多...
titleLink :http://bbs.csdn.net/topics/110188105
===============================================================================
作者:翱翔   日期:2006-01-15 17:23   浏览 700 次
title :谁指点我写一个去除字符串中多余空格的正则表达式啊?
date :日期:2006-01-15 17:23
lookCount:浏览 700 次
author :翱翔
authorLink :http://my.csdn.net/xinlusoaring
descrition :如果在textbox输入的内容中出现连续两个以上的空格,就保...
titleLink :http://bbs.csdn.net/topics/80299524
===============================================================================
作者:zyciis209   日期:2009-12-18 17:56   浏览 68 次
title :|zyciis| 求修改正则表达式:(?)[^.]*?(?=\),[^.]*?这里如何只匹配空格和换行符,谢谢
date :日期:2009-12-18 17:56
lookCount:浏览 68 次
author :zyciis209
authorLink :http://my.csdn.net/zyciis209
descrition :的,而且他里面只能为空格或换行符谢谢-也就相当于替换 => ...
titleLink :http://bbs.csdn.net/topics/320259738
===============================================================================
作者:dvdvip   日期:2009-06-06 09:17   浏览 320 次
title :如何用正则表达式判断数字或-开头,而且,不能有空格和冒号?
date :日期:2009-06-06 09:17
lookCount:浏览 320 次
author :dvdvip
authorLink :http://my.csdn.net/dvdvip
descrition :[color=#FF6600][b]如何用正则表达式判断不能...
titleLink :http://bbs.csdn.net/topics/310062771
===============================================================================
作者:harbouryan   日期:2009-11-26 18:04   浏览 380 次
title :求java正则表达式去掉xml中多余的空格
date :日期:2009-11-26 18:04
lookCount:浏览 380 次
author :harbouryan
authorLink :http://my.csdn.net/harbouryan
descrition :兄弟有一个xml文本,样例如下: 100 100这个文本如果...
titleLink :http://bbs.csdn.net/topics/320199520
===============================================================================
作者:木有JJ   日期:2007-04-28 11:32   浏览 460 次
title :如何用正则表达式向字符串插空格,有意思的
date :日期:2007-04-28 11:32
lookCount:浏览 460 次
author :木有JJ
authorLink :http://my.csdn.net/Jimmy1105
descrition :字符串: -HHHH-HHH-H-我想往H之间插入空格,生成...
titleLink :http://bbs.csdn.net/topics/110036525
===============================================================================
作者:bocai17   日期:2009-06-26 19:17   浏览 5540 次
title :正则表达式怎么匹配空格
date :日期:2009-06-26 19:17
lookCount:浏览 5540 次
author :bocai17
authorLink :http://my.csdn.net/bocai17
descrition :\d\\s\\d"//空格\\x20或者“ ”都不行,我试过...
titleLink :http://bbs.csdn.net/topics/310109773
===============================================================================
作者:~一只牛~   日期:2009-12-01 22:45   浏览 311 次
title :正则表达式 忽略空格的问题
date :日期:2009-12-01 22:45
lookCount:浏览 311 次
author :~一只牛~
authorLink :http://my.csdn.net/CnManStudy
descrition :使用函数sscanf格式化这么一个字符串:UserID 65...
titleLink :http://bbs.csdn.net/topics/320214812
===============================================================================
作者:玉盘珍馐   日期:2008-11-18 12:24   浏览 640 次
title :求把替换为空格的正则表达式
date :日期:2008-11-18 12:24
lookCount:浏览 640 次
author :玉盘珍馐
authorLink :http://my.csdn.net/cuihuibin
descrition :只替换"[old]"标签内的""字符,并且把标签也替换为[t...
titleLink :http://bbs.csdn.net/topics/280081538
===============================================================================
作者:please_call_me_J   日期:2013-04-22 09:56   浏览 100 次
title :一个判断空格的正则表达式,始终不对
date :日期:2013-04-22 09:56
lookCount:浏览 100 次
author :please_call_me_J
authorLink :http://my.csdn.net/juyangjia
descrition :不允许字符中包含空格,不论首尾还是中间,都不允许空格。正则表...
titleLink :http://bbs.csdn.net/topics/390434236
===============================================================================

源码下载

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值