java的jsoup介绍--java爬虫与java解析html

         最近的工作需要从网上抓取些信息,奈何不会python,暂时又没时间去研究它,只好用java来搞了。事实证明,做爬虫不一定要用python,java一样能做到。jsoup是java的文档解析工具,很方便,很强大。它可以将html文件、字符串或URL转化为Document对象,然后可以通过DOM、CSS和类似jQuery的操作方式,取出或设置属性和内容。它还可以清理不受信任的html,以防止XSS攻击。你能想到的,几乎它都能实现。

        先简单讲一下爬虫。爬虫,属于灰色区域吧,它从互联网上抓取我们所需的信息,可以自动按时执行,以一定的规则抓取页面,处理后存储或利用起来,把别人的资源变成自己的。一般先建立一个爬虫队列,将初始URL放入队列;爬取初始URL,获取内容和URL链接,内容处理,搜集存储自己需要的资源,链接标记为已爬取;获取内容里的所有url,将自己需要的url加入爬虫队列;从队列里取出一个未标记的url,继续爬取,获取内容,继续扩充爬虫队列;当所有url都是已爬取,爬取结束。

       再说一下jsoup。主要来说,使用它进行爬取,需要三步。

       首先,获取html,可以是文件,也可以是html字符串,也可以是url链接。然后,将html转化为Document对象。最后处理Document对象。处理时,可以获取指定id的元素属性或内容,也可以通过标签获取。可以获取1个对象,也可以获取1个队列。如果通过jsoup的方法满足不了你的数据截取需求,可以继续用处理字符串的方法处理,字符串拆分(split)成数组,再获取,或者用substring获取。

       下面以抓取汇率信息做个简易demo,抓取人民币到美元的汇率。直接上代码:

public static void main(String args[]) throws IOException{
		//jsoup文档:https://jsoup.org/apidocs/
		String from = "CNY";
		String to = "USD";
		String url = "http://hl.anseo.cn/cal_"+from+"_To_"+to+".aspx";
		Document doc = Jsoup.connect(url).get();
		Element  result = doc.getElementById("result");
		if(null != result ){
			Element pElement = result.getElementsByTag("p").get(1);
			System.out.println("所需的字符串:"+pElement);
			String [] array = pElement.html().split(" ");
			int i = 0;
			for(String aString : array){
				System.out.println("处理之后,array["+i+"]=\""+aString+"\"");
				i++;
			}
			String fromName = array[1];
			String toName = array[4];
			//double除法有问题,用bigdecimal
			BigDecimal a1 = new BigDecimal(array[3]);    
			BigDecimal rate = a1.multiply(new BigDecimal("0.01"));
			System.out.println("结果所需要的五个元素:"+fromName+"("+from+"),"+toName+"("+to+"),"+rate.doubleValue());
			System.out.println("汇率结果:"+rate.doubleValue());
		}
	}
执行结果:

所需的字符串:<p>100 人民币 = 14.5100 美元</p>
处理之后,array[0]="100"
处理之后,array[1]="人民币"
处理之后,array[2]="="
处理之后,array[3]="14.5100"
处理之后,array[4]="美元"
结果所需要的五个元素:人民币(CNY),美元(USD),0.1451
汇率结果:0.1451
      由此可见,只要是这个网站支持的汇率展示,我都可以抓取出来,存起来之后,就可以对外提供服务了。包装成对外的实时接口也是可以的,实时的去抓取这个网页,结果返回给用户。其他的业务也是类似,好多公司的数据都是这么来的,但是要考虑到被封杀和下毒的风险,还有法律风险喽。这只是个简单的实例,实际的爬虫程序,会更为复杂和强大,还会用到定时任务,数据库存储(DB,mongo,redis),索引(solr,Elasticsearch),多线程等技术。

    以上,jsoup真的很强大,java果然是世界上最棒的语言。

  • 1
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

坚持是一种态度

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值