网络爬虫题目

测量纠缠叠加

已于 2022-02-27 12:11:38 修改

阅读量167

点赞数

文章标签：大数据

于 2022-02-21 21:06:50 首次发布

本文链接：https://blog.csdn.net/HTIW092302/article/details/123056037

版权

问题

网络爬虫的步骤流程?
为什么有些请求返回405?
HttpClient是用来干什么的?
响应头是什么?
<script> 标签不属于html对吗?
响应体如何获取图片视频声音 ?使用字节输入流
默认的发送请求的方式是什么?
sku和spu是什么?
爬虫中保证线程安全为什么不是对线程加锁,而是对要操作的数据加锁?

答案

1) 确定首页URL 2) 发送请求获取数据 httpClient 3) 解析数据 Jsoup 4) 保存数据
可能有以下原因

访问次数过多导致被屏蔽.
采用POST请求访问https协议加密的网站会被屏蔽.

用来发送请求的
本质上是一群Map双列集合
对,它属于JS
httpEntity.content
GET

SPU = Standard Product Unit （标准产品单位）
SPU是商品信息聚合的最小单位，是一组可复用、易检索的标准化信息的集合，该集合描述了一个产品的特性。通俗点讲，属性值、特性相同的商品就可以称为一个SPU。

例如 iPhone X 可以确定一个产品即为一个SPU

SKU=stock keeping unit(库存量单位)
SKU即库存进出计量的单位， 可以是以件、盒、托盘等为单位。SKU是物理上不可分割的最小存货单元。在使用时要根据不同业态，不同管理模式来处理。在服装、鞋类商品中使用最多最普遍。

例如  iPhone X 64G 银色 则是一个SKU。