关于Python爬虫爬淘宝mm详细教程+存入数据库

本文介绍了如何使用Python爬虫抓取淘宝MM页面的图片URL,并利用ajax技术处理分页,解析post请求参数,获取用户信息。通过分析响应的json数据获取userId,从而访问个人主页抓取图片。最后将图片URL存入数据库。
摘要由CSDN通过智能技术生成

目标网站:https://mm.taobao.com/search_tstar_model.htm?

具体思路:进入页面我们会看见很多图片,其实每张图片对应一个URL,然后点击一张图片我们就会进入到对应主页,主页里面有大量的图片,我们首先就是获取到当前页面的所有url,然后进入每个url获得对应的每个人的所有图片。

首先我们进入该网页,直接F12进入调试模式,(如果进入不了就右键然后点击审查元素)


        然后点击左上角的那一个按钮,从页面中选择一个元素,随后我们选择第一张,然后就可以发现对应的url, 一般来说我们会复制该url,然后查看页面源代码,搜索该url,然后获取该页面所有的类似url,但是很奇怪这里我们去源代码里面搜索发现根本搜索不到该url,源代码里面搜不到但是为什么我审查元素的时候能看到呢,它这里就是一个ajax异步了。


我们需要了解两点:

1、ajax是asynchronous javascript and XML的简写,就是异步的javascript和XML,这一技术能够向服务器请求额外的数据而无须卸载页面,会带来更好的用户体验。

2、ajax技术的核心是XMLHttpRequest对象(简称XHR)。


然后我们点击网络那个按钮,然后清空掉页面上的那些传输信息,我们刷新网址,然后我们就会得到暂新的传输信息,我们只需要在这些信息里面找类型是html而原因是xhr的那条信息,如图&

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值