爬虫
空城1995
爱编程,爱java。
展开
-
使用java的HttpClient实现抓取网页数据
网络爬虫就是用程序帮助我们访问网络上的资源,我们一直以来都是使用HTTP协议来访问互联网上的网页,网络爬虫需要编写程序,在这里使用同样的HTTP协议来访问网页。1.pom依赖 <dependency> <groupId>org.apache.httpcomponents</groupId> ...原创 2019-09-22 10:59:33 · 1034 阅读 · 0 评论 -
使用jsoup解析html
我们抓取到页面后,还需要对页面进行解析。可以使用字符串处理工具解析页面,也可以使用正则表达式,但是这些技术都会带来很大的开发成本,所以我们需要一款专门解析html页面的技术。jsoup是一款java的html解析器,可以直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似Jquery的操作方法来取出和操作数据。jsoup的主要功能如下:...原创 2019-09-22 12:32:51 · 509 阅读 · 0 评论