java当中,爬虫主要通过httpclient向服务器发送请求,然后通过Jsoup来解析对方接口给我们返回回来的页面源码;
那么这里的Jsoup是怎么解析源码的?
我们都知道页面的源码包含在<html></html>根标签下,这和我们我们常用的xml文件特别像。在这里,Jsoup就可以解析类似于xml文件那种格式的源码,然后将其解析成一个文档对象,通过自己定义规则,获得文档里的标签,然后获得内容。
对于httpclient,其实他的本质就是模仿浏览器向服务器发送请求,通过httpclients的createdefault方法就可以创建一个httpclient对象,然后提交一个get方法,当然,为了让自己更像浏览器,需要将页面的请求头信息也要发送给服务器。