自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 资源 (1)
  • 收藏
  • 关注

原创 【6】获取局部刷新的数据3

从Query String Parameters中可以发现请求参数与URL能对应上。”就是我们输入的“学习”,当当网页面经过处理得到的是“

2024-11-07 14:25:23 350

原创 【5】获取局部刷新的数据2

上一节爬取哔哩哔哩局部刷新的数据,发起请求的方式是GET。但是很多网站获取局部刷新数据的方式采用POST请求,这一节就是讲解POST请求获取局部刷新数据的案例实现。

2024-11-07 14:24:49 65

原创 【4】获取局部刷新的数据1

我们仍然是要爬取当当网的局部刷新数据,不过在此之前存在其他更常见的局部刷新数据获取方式,我们先讲更常见的案例。

2024-11-07 14:24:19 68

原创 【3】伪装已登录的用户

nodejs程序携带Cookie发起请求,那么网页收到请求发现Cookie会认为请求者已经登录,于是就可以直接返回页面。一个网站可能有多个服务器,不同页面可能编码方式不同(比如当当网首页采用GBK编码,购物车页面则采用UTF8编码,且服务器地址Remote Address和域名都发生变更),因此我们最好更新所有的请求头信息。如上图所示,设置Cookie信息后,使用nodejs程序进行请求就不会跳转登录页。

2024-11-07 14:21:04 167

原创 【2】简单防止爬虫ip被封

【2】简单防止爬虫ip被封1. 伪装浏览器身份防止爬虫ip被封,最简单的方案就是伪装身份,可以简单理解为请求的头信息就是HTTP请求者的身份证。要以浏览器的身份发起爬虫请求。就要伪造请求的头信息。User-Agent :就是身份证的民族+地区,"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36"表明HTTP请求者是Wind

2021-01-10 12:49:44 557

原创 【1】执行Http请求访问网页

【1】执行Http请求访问网页1. 目标网址我们的目标网址是当当网,url地址是 http://book.dangdang.com/![image.png](https://img-blog.csdnimg.cn/img_convert/4670493f01dee4dc86511f571f86a45c.png#align=left&display=inline&height=609&margin=[object Object]&name=image.png&or

2021-01-10 12:43:58 715 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除