爬虫
码农阳神
Diligence is like the seedling that springs up in spring, but it does not increase and grows day by day.
展开
-
http协议复习
http协议 知识点 掌握 http以及https的概念和默认端口 掌握 爬虫关注的请求头和响应头 了解 常见的响应状态码 理解 浏览器和爬虫爬取的区别 一提起http协议,大家都会想起它是一个应用层协议,那么http协议跟爬虫有什么关系呢?请看下图: 1. http以及https的概念和区别 HTTPS比HTTP更安全,但是性能更低 HTTP:超文本传输协议,默认端口号是80 超文本:是指超过文本,不仅限于文本;还包括图片、音频、视频等文件 传输协议:是指使用共用约定的原创 2020-09-05 22:52:52 · 188 阅读 · 0 评论 -
1.爬虫概述
爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟浏览器,发送请求,获取响应 网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。 原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做 爬虫也只能获取客户端(浏览器)所展示出来的数据 知识点:了解 爬虫的概念 2. 爬虫的作用 爬虫在互联网世界中有很多的作用,比如:原创 2020-09-04 20:03:32 · 358 阅读 · 0 评论 -
Java爬虫爬取京东
需求分析 首先访问京东,搜索手机,分析页面,我们抓取以下商品数据: 商品图片、价格、标题、商品详情页 SPU和SKU 除了以上四个属性以外,我们发现上图中的苹果手机有四种产品,我们应该每一种都要抓取。那么这里就必须要了解spu和sku的概念。 SPU = Standard Product Unit (标准产品单位) SPU是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。通俗点讲,属性值、特性相同的商品就可以称为一个SPU。 例如上图中的苹果手机就是SPU,包括原创 2020-08-27 23:26:08 · 1376 阅读 · 1 评论 -
Java爬虫
网络爬虫 概念 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 简单的小程序 创建依赖 <dependencies> <!-- HttpClient --> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifa原创 2020-08-27 01:30:28 · 5296 阅读 · 0 评论