问题
- 网络爬虫的步骤流程?
- 为什么有些请求返回405?
- HttpClient是用来干什么的?
- 响应头是什么?
<script>
标签不属于html对吗?- 响应体如何获取 图片 视频 声音 ?使用字节输入流
- 默认的发送请求的方式是什么?
- sku和spu是什么?
- 爬虫中保证线程安全为什么不是对线程加锁,而是对要操作的数据加锁?
答案
1) 确定首页URL 2) 发送请求 获取数据 httpClient 3) 解析数据 Jsoup 4) 保存数据
- 可能有以下原因
访问次数过多导致被屏蔽.
采用POST请求访问https协议加密的网站会被屏蔽.
- 用来发送请求的
- 本质上是一群Map双列集合
- 对,它属于JS
- httpEntity.content
- GET
SPU = Standard Product Unit (标准产品单位)
SPU是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。通俗点讲,属性值、特性相同的商品就可以称为一个SPU。
例如 iPhone X 可以确定一个产品即为一个SPU
SKU=stock keeping unit(库存量单位)
SKU即库存进出计量的单位, 可以是以件、盒、托盘等为单位。SKU是物理上不可分割的最小存货单元。在使用时要根据不同业态,不同管理模式来处理。在服装、鞋类商品中使用最多最普遍。
例如 iPhone X 64G 银色 则是一个SKU。
- 对数据加锁可以减少被锁的代码范围,提高效率
CSS
1.层级选择器中,标签的名称[属性名称=属性值] 中间没有空格
比如ul[class=JS_navCtn cate_menu]