Jsoup解析网页获取信息

毕设需要使用网页上的数据,然后就用到了JSOUP。

Jsoup官网

既然是解析Html,首先要做的就是获取html这个页面,也就是要成功链接url。

就拿我做的举个例子,我需要解析获取我们学校官网上的新闻,链接地址为:http://www.chzu.edu.cn/s/1/t/1152/p/3/list.htm

界面如下:

首先创建一个java项目,引入jsoup包,我用的是jsoup-1.6.1.jar

然后就是写代码连接url

    Document doc;
    doc = Jsoup.connect("http://www.chzu.edu.cn/s/1/t/1152/p/2/list.htm").get();
这一步成功连接的话,就得到了html源代码!

然后就是分析html代码,根据class、id或tag来获取想要的内容。

我用的是Firefox里的查件firebug,观察html源代码

新闻用的都是统一样式,可以先根据class“columnStyle”来获取页面上所有的新闻列表,然后遍历,将标题和时间得到,这个时候,查看去jsoup官网看一看api和demo。

第一步,获取样式为columnStyle的所有元素

Elements ListDiv = doc.getElementsByClass("columnStyle");
这样就获取了新闻列表的html代码

第二部根据Tag“a”获取文本内容和属性“href”的值,也就是标题和LinkUrl;根据class为“postTime”获取发布时间,这里可以使用get(0),因为在columnStyle下面只有一个class为“postTime”的元素,代码为

for(int i=0;i<ListDiv.size();i++){
				Element column_ele = ListDiv.get(i);
				Element td_ele = column_ele.getElementsByTag("a").get(0);
				System.out.println("Href:"+td_ele.attr("href"));
				System.out.println("Title:"+td_ele.text().trim());
				Element time_ele = column_ele.getElementsByClass("postTime").get(0);
				System.out.println("PublisTime:"+time_ele.text());
			}
这样看来,jsoup解析html并不是那么难,运行结果为:

Title:滁州学院出台文件力推科技工作
Href:/s/1/t/1152/83/89/info99209.htm
PublisTime:2015-03-10
Title:滁州学院与马来西亚城市理工大学签订合作协议
Href:/s/1/t/1152/83/aa/info99242.htm
PublisTime:2015-03-11
Title:民进滁州学院支部获评全省先进基层组织
Href:/s/1/t/1152/83/a5/info99237.htm
PublisTime:2015-03-11
Title:滁州学院领导调研创业孵化基地
Href:/s/1/t/1152/83/a4/info99236.htm
PublisTime:2015-03-11
Title:滁州学院纪委专题学习省纪委九届五次全会精神
Href:/s/1/t/1152/83/8a/info99210.htm
PublisTime:2015-03-10
Title:滁州学院师生热议全国“两会”
Href:/s/1/t/1152/83/88/info99208.htm
PublisTime:2015-03-10
Title:滁州学院在第四届全国大学生艺术展演中获佳绩
Href:/s/1/t/1152/83/70/info99184.htm
PublisTime:2015-03-10
Title:滁州学院部署2015年对口招生暨普通专升本工作
Href:/s/1/t/1152/82/f7/info99063.htm
PublisTime:2015-03-08
Title:滁州学院举办多彩趣味活动喜迎三八妇女节
Href:/s/1/t/1152/82/f6/info99062.htm
PublisTime:2015-03-08
Title:滁州学院开展义务植树推进绿色校园建设
Href:/s/1/t/1152/82/6b/info98923.htm
PublisTime:2015-03-06
Title:滁州学院两学子获"安徽省十佳大学生"提名奖
Href:/s/1/t/1152/82/68/info98920.htm
PublisTime:2015-03-05
Title:滁州学院召开务虚会认真谋划2015年工作
Href:/s/1/t/1152/82/3b/info98875.htm
PublisTime:2015-03-03
Title:滁州学院领导开学第一天检查教学运行情况
Href:/s/1/t/1152/82/29/info98857.htm
PublisTime:2015-03-03
Title:滁州学院召开新学期第一次教学督导组工作会议
Href:/s/1/t/1152/81/f7/info98807.htm
PublisTime:2015-03-03
Title:滁州学院辅导员获全国高校辅导员优秀博文奖
Href:/s/1/t/1152/81/f8/info98808.htm
PublisTime:2015-03-02
源码下载(包括Jar包)

接下来做的就是获取文章的内容,包括图片~~~未完待续


  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值