关于Ajax爬虫的方法(全站数据爬取)

青山湖白开水

于 2024-05-05 22:18:38 发布

阅读量991

点赞数 4

文章标签： ajax 爬虫前端

本文链接：https://blog.csdn.net/Orangeyezzer/article/details/138473858

版权

本文介绍了如何抓取使用Ajax技术的网站（如https://spa1.scrape.center/），包括识别Ajax请求、分析接口数据格式、模拟Ajax请求以及使用多线程爬取并解析电影详情。作者详细展示了从获取所有页面数据到保存到数据库的完整过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1.Ajax是什么？

AJAX简单来说是一种在无需重新加载整个网页的情况下，能够更新部分网页的技术。

常见的比如淘宝或者微博滑到底部会出现"点击加载更多"，或者滑到底部会自动出现更多的内容。此类网站皆是Ajax网站

2.Ajax类型网站爬虫的特点

Ajax网站跟普通网站爬虫不同点在于Ajax是一种渲染的方式使数据呈现在页面之上，因此网页看到的内容跟我们requests请求网页的内容是不一样的

例如本次案例采用的网站：https://spa1.scrape.center/

import requests
response = requests.get(url = 'https://spa1.scrape.center/')
print(response.text)

这是最最基础的爬虫步骤，但请求结果与我们想要的结果明显不符。

3.查找Ajax接口

我们进入开发者模式--点击Network，这里看见所有的请求数据，而Ajax请求的类型是XHR的，因此我们点击Fetch/XHR接口类型，而下面status200的即为我们想要的数据

4.分析请求数据格式

得到Ajax接口数据之后，我们可

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

青山湖白开水

关注关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

使用Ajax技术进行动态网页的爬虫（pycharm）

2301_80945113的博客

03-17

2281

如果这种情况就是反爬机制的阻挠或者是timeout爬取的时间不够可以适当增大！

Ajax网页源码抓取程序

08-26

使用C#中的WebBrowser控件抓取网页源码（对Ajax的网页特别有用）。由于时间的限制，本程序没有像蜘蛛那样的爬行功能，只能对特定的网址进行抓取，但本程序允许你导入一批网址，然后进行抓取

参与评论您还未登录，请先登录后发表或查看评论

【爬虫】5. Ajax数据爬取

likinguuu的博客

08-25

1339

Ajax，全称为Asynchronous JavaScript and XML，即异步的JavaScript和XML。它不是一门编程语言，而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页内容的技术。想象一下你正在一个在线购物网站上浏览商品列表，突然你想要查看某个商品的详细信息。如果没有Ajax，你点击该商品，整个页面都会重新加载，你需要重新浏览商品列表，然后再找到你之前看到的位置。

Pyhon爬虫之Ajax的数据爬取

最新发布

小李学不完的博客

03-30

3442

全称Asynchronous JavaScript and XML，即。它不是一门编程语言，而是。对于传统网页，要更新内容则需要刷新页面，而Ajax可以在页面不被刷新的情况下更新。（这个过程实际是页面在后台与服务器进行了数据交互，获取数据后，再利用JavaScript改变网页。

Ajax数据爬取

Huangqingmeng的博客

04-26

528

有时候我在用 requests 抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用 requests 得到的结果并没有这是因为 quests 获取的都是原始的 HTML 文档，而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果，这些数据的来源有多种，可能是通过 jax 加载的，可能是包含在 TML 文档中的，也可能是经过 JavaScript 和特定算法计算后生成 ...

Ajax数据爬取-爬虫篇

ViMan1204的博客

07-25

1905

前言：有时候我们用requests抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用reuqest的到的结果并不一样。这是因为request获取的都是原始的HTML文档，而浏览器中的页面则是经过JavaScript处理数据后生成的结果，可能是通过Ajax加载的，可能是包含的HTML文档中的，也可能是经过JavaScript和特定的算法计算后生成...

16-爬虫之scrapy框架手动请求发送实现全站数据爬取03

gemoumou的python学习实记

08-30

461

scrapy的手动请求发送实现全站数据爬取创建一个爬虫工程：scrapy startproject proName 进入工程目录创建爬虫源文件：scrapy genspider spiderName www.xxx.com 执行工程：scrapy crawl spiderName

轻松爬取跨境电商商品数据集

qq_46158060的博客

02-27

2943

这些数据包括但不限于商品名称、价格、描述、用户评价、分类标签、卖家信息、销售量、库存量、图片链接等。4、我们以亚马逊为列，上面这张图片就可以看到，亚马逊商品、亚马逊评分超过4.5的商品、亚马逊在USA的评论商品，以及下面展示的亚马逊畅销商品、最受好评的产品。5、通过分析这些数据，我们可以快速定位自己的定价策略、消费者群体，你只需要跟着最火爆的那几个商家模仿去做，我们可以下载对应的CSV或者JSON格式的数据集，通过python进行数据分析去筛选。：研究目标市场的文化、习惯、购买行为和法规。

Python爬虫实战之通过ajax获得图片地址实现全站图片下载(三)

01-20

Python 爬虫多线程实现下载图片本篇文章可能跟上一篇有点像只是换了个页面然后搞定他的ajax 通过直接访问ajax的接口来实现图片的下载因为再源代码中已经没有办法显示他的url链接了这样的访问也称为异步访问 ...

scrapy通用爬虫对接selenium+chromedriver实现简书整站爬取

s_kangkang_A的博客

05-07

2437

此前已经做过一些对于ajax网站的爬取，或分析ajax规则，或使用selenium+chromedriver去爬取，但它们都是在scrapy框架外实现的，那么，怎么利用scrapy框架去爬取带有ajax加载数据的信息呢。以简书为例：如上图，我们发现有些文章它被较多的专题收录，那么我们想要获取没有显示出来的专题，该怎么办呢。然后，我们明确要做的是简书的整站爬虫，怎么能确保爬下来所有...

网络爬虫爬取Ajax

09-14

利用ruby技术实现网络爬虫爬取Ajax

Python爬虫之Ajax数据爬取

05-01

Python爬虫之Ajax数据爬取，通过Ajax实现爬取某微博博主的多篇文章

Ajax爬虫

C_teacher的博客

04-30

678

文章目录什么是Ajax爬虫？什么是Ajax？Ajax如何分析页面？什么是Ajax爬虫？ 1. 浏览器中可看到正常显示的数据，但使用requests得到的结果并没有。这是什么原因呢? requests获取的是原始的HTML文档，而浏览器中的页面是经过JS处理数据后生成的结果。 2. 这些数据的来源有哪些情况呢? Ajax加载、包含在HTML文档中、经过JavaScript和特定算法计算后生成什...

【爬虫基础】第5讲 AJAX动态页面的数据获取

a272329874a的博客

03-27

365

打开浏览器的开发者工具-network-xhr,找到可以获取到数据的URL访问即可。静态：访问地址栏里的数据就可以获取到想要的数据。动态：访问地址栏里的数据获取不到想要的数据。

python爬虫爬取ajax页面

Lance

01-10

5494

# coding:utf-8 # 引入selenium中的webdriver import re from urllib import urlretrieve from selenium import webdriver import time # webdriver中的PhantomJS方法可以打开一个我们下载的静默浏览器。 # 输入executable_path为当前文件夹下的phantomj

(五) 爬虫教程｜Ajax 数据爬取

weixin_45579930的博客

12-24

3126

一、前言有时候我们在用 requests 抓取页面的时候，得到的结果可能和在浏览器中看到的不一样：在浏览器中可以看到正常显示的页面数据，但是使用 requests 得到的结果并没有，这是因为requests 获取的都是原始的 HTML 文档，而浏览器中的页面则是经过 JavaScript 处理数据后生成的结果，这些数据的来源有多种，可能是通过 Ajax 加载的，可能是包含在 HTML 文档中的，也可能是经过 JavaScript 和定算法计算后生成的对于第一种情况，数据加载是一种异步加载方式，原始的

ajax爬虫来了～

YuqiRealm.com

10-15

456

最近好忙啊，都没空看python，小代码一段弥补一下我的内疚：from lxml import html from time import sleep import requests import os ls = os.linesep filename = "OutputFile_2.txt" if os.path.exists(filename): print "ERROR,'%s'

网络爬虫--Ajax爬虫

Wangtuo1115的博客

05-03

888

什么是Ajax？为什么要用Ajax？问：浏览器中可看到正常显示的数据，但使用requests得到的结果并没有。这是什么原因呢? 答：requests获取的是原始的HTML文档，而浏览器中的页面是经过JS处理数据后生成的结果。问：这些数据的来源有哪些情况呢? 答：Ajax加载、包含在HTML文档中、经过JavaScript和特定算法计算后生成。什么是Ajax？ Ajax(Asynchr...