手把手教你用Python爬取某宝男装信息，文末附完整代码

最新推荐文章于 2024-07-20 17:12:48 发布

程序员2011

最新推荐文章于 2024-07-20 17:12:48 发布

阅读量1k

点赞数 8

分类专栏： 2024年程序员学习文章标签： python 开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_79099607/article/details/137492211

版权

2024年程序员学习专栏收录该内容

283 篇文章 0 订阅

订阅专栏

正文

分析目标网站

打开某宝首页, 输入"男装"后点击"搜索", 则跳转到"男装"的搜索界面.
空白处"右击"再点击"检查"审查网页元素, 点击"Network".

1)找到对应的URL, URL里的参数正是Query String Parameters的参数, 且请求方式是GET

在这里插入图片描述

我们请求该URL得到内容就是"Response"里的内容, 那么点击它来确认信息.

在这里插入图片描述

下拉看到"男装"字样, 那么再往下找, 并没有发现有关"男装"的商品信息.

4)任意复制一个商品信息, 空白处右击再点击"查看网页源代码", 在源码查找该商品, 即可看到该商品的信息.

5)对比网页源代码和"Response"响应内容, 发现源代码中的商品信息被替换, 这便是采用了JS加密

6)如果去请求上面的URL, 得到的则是加密过的信息, 这时就可以利用Selenium库来模拟浏览器, 进而得到商品信息.

获取单个商品界面

请求网站

-- coding: utf-8 --

from selenium import webdriver #从selenium导入浏览器驱动

browser = webdriver.Chrome() #声明驱动对象, 即Chrome浏览器

def get_one_page():

‘’‘获取单个页面’‘’

browser.get(“https://www.xxxxx.com”) #请求网站

输入"男装", 在输入之前, 需要判断输入框是否存在, 如果存在则输入"男装", 不存在则等待显示成功.

-- coding: utf-8 --

from selenium import webdriver

from selenium.webdriver.common.by import By #导入元素定位方法模块

from selenium.webdriver.support.ui import WebDriverWait #导入等待判断模块

from selenium.webdriver.support import expected_conditions as EC #导入判断条件模块

browser = webdriver.Chrome()

def get_one_page():

‘’‘获取单个页面’‘’

browser.get(“https://www.xxxxx.com”)

input = WebDriverWait(browser,10).until( #等待判断

EC.presence_of_element_located((By.CSS_SELECTOR,“#q”))) #若输入框显示成功,则获取,否则等待

input.send_keys(“男装”) #输入商品名称

下一步就是点击"搜索"按钮, 按钮具有属性: 可点击, 那么加入判断条件.

-- coding: utf-8 --

from selenium import webdriver

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome()

def get_one_page():

‘’‘获取单个页面’‘’

browser.get(“https://www.xxxxx.com”)

input = WebDriverWait(browser,10).until(

EC.presence_of_element_located((By.CSS_SELECTOR,“#q”))) #

input.send_keys(“男装”)

button = WebDriverWait(browser,10).until( #等待判断

EC.element_to_be_clickable((By.CSS_SELECTOR,“#J_TSearchForm > div.search-button > button”))) #若按钮可点击, 则获取, 否则等待

button.click() #点击按钮

获取总的页数, 同样加入等待判断.

-- coding: utf-8 --

import re

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome()

def get_one_page():

‘’‘获取单个页面’‘’

browser.get(“https://www.xxxxx.com”)

input = WebDriverWait(browser, 10).until(

EC.presence_of_element_located((By.CSS_SELECTOR, “#q”)))

input.send_keys(“男装”)

button = WebDriverWait(browser, 10).until(

EC.element_to_be_clickable(

(By.CSS_SELECTOR, “#J_TSearchForm > div.search-button > button”)))

button.click()

pages = WebDriverWait(browser, 10).until( # 等待判断

EC.presence_of_element_located(

(By.CSS_SELECTOR, “#mainsrp-pager > div > div > div > div.total”))) # 若总页数加载成功,则获取总页数,否则等待

return pages.text

def main():

pages = get_one_page()

print(pages)

if name == ‘main’:

main()

打印出来的不是我们想要的结果, 利用正则表达式获取, 最后再利用try…except捕捉异常

-- coding: utf-8 --

import re

from selenium import webdriver

from selenium.common.exceptions import TimeoutException

from selenium.webdriver.common.by import By

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.support import expected_conditions as EC

browser = webdriver.Chrome()

def get_one_page():

‘’‘获取单个页面’‘’

try:

browser.get(“https://www.xxxxx.com”)

input = WebDriverWait(browser,10).until(

EC.presence_of_element_located((By.CSS_SELECTOR,“#q”)))

input.send_keys(“男装”)

button = WebDriverWait(browser,10).until(

EC.element_to_be_clickable((By.CSS_SELECTOR,“#J_TSearchForm > div.search-button > button”)))

button.click()

pages = WebDriverWait(browser,10).until(

EC.presence_of_element_located((By.CSS_SELECTOR,“#mainsrp-pager > div > div > div > div.total”)))

return pages.text

except TimeoutException:

return get_one_page() #如果超时,继续获取

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数Python工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年Python开发全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友，同时减轻大家的负担。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上Python开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加V获取：vip1024c （备注Python）

最后

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。
🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。
🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

指点迷津，你的问题可能不是问题，求资源在群里喊一声。

🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。
🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！
[外链图片转存中…(img-r4itUnY8-1712538793785)]

关注

8
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
手把手教你用Python爬取某宝男装信息，文末附完整代码

🍅 硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。🍅 面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。🍅 知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。一个人可以走的很快，但一群人才能走的更远。
复制链接

扫一扫

专栏目录

普通网友 CSDN认证博客专家 CSDN认证企业博客

码龄1年

507: 原创

-: 周排名

-: 总排名

33万+: 访问

: 等级

1万+: 积分

4975: 粉丝

7011: 获赞

17: 评论

7309: 收藏

私信

关注

热门文章

分类专栏

最新评论

InceptionV3实战：tensorflow2，程序人生
阿J~: 太精辟了！竖起我的大拇指！
vue项目实现路由按需加载(路由懒加载)的3种方式
邻居家的小哥哥: 面试题链接点进去没了
最新CSI2与CDPHY学习_csi-2 v1(1)
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
最新CSI2与CDPHY学习_csi-2 v1(1)
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
linux中sftp的使用详解，scp使用的详解
普通网友: 文章构思巧妙，结构紧凑，既有深度又有广度，读后让人受益匪浅，确实是一篇值得一读的佳作。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。