爬虫
码农阳神
Diligence is like the seedling that springs up in spring, but it does not increase and grows day by day.
展开
-
http协议复习
http协议知识点掌握 http以及https的概念和默认端口掌握 爬虫关注的请求头和响应头了解 常见的响应状态码理解 浏览器和爬虫爬取的区别一提起http协议,大家都会想起它是一个应用层协议,那么http协议跟爬虫有什么关系呢?请看下图:1. http以及https的概念和区别HTTPS比HTTP更安全,但是性能更低HTTP:超文本传输协议,默认端口号是80超文本:是指超过文本,不仅限于文本;还包括图片、音频、视频等文件传输协议:是指使用共用约定的原创 2020-09-05 22:52:52 · 198 阅读 · 0 评论 -
1.爬虫概述
爬虫概述知识点:了解 爬虫的概念了解 爬虫的作用了解 爬虫的分类掌握 爬虫的流程1. 爬虫的概念模拟浏览器,发送请求,获取响应网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做爬虫也只能获取客户端(浏览器)所展示出来的数据知识点:了解 爬虫的概念2. 爬虫的作用爬虫在互联网世界中有很多的作用,比如:原创 2020-09-04 20:03:32 · 370 阅读 · 0 评论 -
Java爬虫爬取京东
需求分析首先访问京东,搜索手机,分析页面,我们抓取以下商品数据:商品图片、价格、标题、商品详情页SPU和SKU除了以上四个属性以外,我们发现上图中的苹果手机有四种产品,我们应该每一种都要抓取。那么这里就必须要了解spu和sku的概念。SPU = Standard Product Unit (标准产品单位)SPU是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。通俗点讲,属性值、特性相同的商品就可以称为一个SPU。例如上图中的苹果手机就是SPU,包括原创 2020-08-27 23:26:08 · 1395 阅读 · 1 评论 -
Java爬虫
网络爬虫概念网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。简单的小程序创建依赖<dependencies> <!-- HttpClient --> <dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifa原创 2020-08-27 01:30:28 · 5307 阅读 · 0 评论