爬虫
你猜不到喔
这个作者很懒,什么都没留下…
展开
-
HttpClient使用详解
一、使用方法使用HttpClient发送请求、接收响应很简单,一般需要如下几步即可。1. 创建HttpClient对象。2. 创建请求方法的实例,并指定请求URL。如果需要发送GET请求,创建HttpGet对象;如果需要发送POST请求,创建HttpPost对象。3. 如果需要发送请求参数,可调用HttpGet、HttpPost共同的setParams(HetpParams par...原创 2018-12-10 10:14:16 · 143 阅读 · 0 评论 -
爬虫一式—— Jsoup
1.Jsoup类的一些重要方法如下:方法 描述 static Connection connect(String url) 创建并返回URL的连接。 static Document parse(File in, String charsetName) 将指定的字符集文件解析成文档。 static Document parse(String html) 将...原创 2018-12-10 10:32:32 · 187 阅读 · 0 评论 -
爬虫二式 —— WebClient
优点:可设置一个运行JavaScript的时间,解决页面数据延时加载问题缺点:慢,而且参数不好设置 // 爬取网站网址+关键字(关键字需转换为gbk的url,如"%2B%3E") String url = "http://s.zhaobiao.cn/search.do?queryword=" + URLEncoder.encode(name, "GBK"); // 查询参数...原创 2018-12-10 10:47:25 · 3446 阅读 · 2 评论 -
爬虫三式 —— HttpClient
可以先看一个简单DemoHttpClient简介HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多的 Java 应用程序需要直接通过 HTTP 协议来访问网络资源。虽然在 JDK 的 java.net 包中已经提供了访问 HTTP 协议的基本功能,但是对于大部分应用程序来说,JDK 库本身提供的功能还不够丰富和灵活。HttpClient 是 Apache...转载 2018-12-10 11:33:12 · 408 阅读 · 0 评论 -
解决爬虫因JavaScript导致的521问题
项目需要爬 http://www.gc-zb.com/search/index.html,发现每次都是521失败,返回的结果是一段JS代码。<script> var x = "@@Dec@catch@@@charCodeAt@@@10@06@challenge@g@@__jsl_clearance@@href@length@0@GMT@e@match@@replace@@...原创 2019-01-04 18:29:35 · 2098 阅读 · 1 评论