网络爬虫题目

问题

  1. 网络爬虫的步骤流程?
  2. 为什么有些请求返回405?
  3. HttpClient是用来干什么的?
  4. 响应头是什么?
  5. <script> 标签不属于html对吗?
  6. 响应体如何获取 图片 视频 声音 ?使用字节输入流
  7. 默认的发送请求的方式是什么?
  8. sku和spu是什么?
  9. 爬虫中保证线程安全为什么不是对线程加锁,而是对要操作的数据加锁?

答案

  1. 1) 确定首页URL 2) 发送请求 获取数据 httpClient 3) 解析数据 Jsoup 4) 保存数据
  2. 可能有以下原因
访问次数过多导致被屏蔽.
采用POST请求访问https协议加密的网站会被屏蔽.
  1. 用来发送请求的
  2. 本质上是一群Map双列集合
  3. 对,它属于JS
  4. httpEntity.content
  5. GET
SPU = Standard Product Unit (标准产品单位)
SPU是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。通俗点讲,属性值、特性相同的商品就可以称为一个SPU。

例如 iPhone X 可以确定一个产品即为一个SPU

SKU=stock keeping unit(库存量单位)
SKU即库存进出计量的单位, 可以是以件、盒、托盘等为单位。SKU是物理上不可分割的最小存货单元。在使用时要根据不同业态,不同管理模式来处理。在服装、鞋类商品中使用最多最普遍。

例如  iPhone X 64G 银色 则是一个SKU。
  1. 对数据加锁可以减少被锁的代码范围,提高效率

CSS

1.层级选择器中,标签的名称[属性名称=属性值] 中间没有空格
比如ul[class=JS_navCtn cate_menu]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值