爬虫
文章平均质量分 64
子ぐ非鱼
这个作者很懒,什么都没留下…
展开
-
Post请求带请求体,模拟登录获取Cookies
一,前期测试首先用浏览器登录你需要模拟的网址,根据登录成功所获得的信息,配置模拟登录的参数:原创 2021-12-28 17:32:30 · 2302 阅读 · 0 评论 -
网络爬虫(三)- WebMagic
一、WebMagicWebMagic是一款爬虫框架,其底层用到之前学习到的HttpClient 和 Jsoup ,可以让我们更方便的开发爬虫。WebMagic 项目代码分为核心和扩展两部分核心部分是一个精简的、模块化的爬虫实现;扩展部分则包括一些便利的、实用性强的功能。 WebMagic 的设计目标是尽量的模块化,并体现爬虫的功能特点。这部分提供了非常简单、灵活的API,在基本不改变开发模式的情况下,编写爬虫。 扩展部分提供一些便捷的功能,例如注解模式编写爬虫等。同事内置一些常用的组件,原创 2021-06-07 16:35:43 · 1017 阅读 · 0 评论 -
网络爬虫(二)- Jsoup
在我们抓取到页面之后,还需要对页面进行解析。整个页面都是字符串的形式,可以使用字符串处理工具来解析页面,也可以使用正则表达式,但这些方法都会带来很大的开发成本。所以我们需要一款准们解析 html 页面的工具。Jsoupjsoup是一款 java 的 HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。主要功能:从URL,文件或字符串中解析HTML;使用DOM 或 CSS选择器来查.原创 2021-06-07 16:34:52 · 532 阅读 · 0 评论 -
网络爬虫(一)- 基本使用
get请求get请求的基本使用 // 1. 打开浏览器,创建HttpClient对象 CloseableHttpClient httpClient = HttpClients.createDefault(); // 2.输入网址,发起get请求创建HttpGet对象 HttpGet get = new HttpGet("http://112.124.1.187/index.html?typeId=16"); // 3.发情请求,返回响应,原创 2021-06-07 16:34:11 · 388 阅读 · 0 评论