【Python爬虫学习】淘宝商品比价爬虫实战

最新推荐文章于 2024-07-25 19:59:32 发布

Johnny_sc

最新推荐文章于 2024-07-25 19:59:32 发布

阅读量1.1k

点赞数 1

分类专栏：爬虫文章标签： python

本文链接：https://blog.csdn.net/Johnny_sc/article/details/107526580

版权

该博客介绍了如何使用Python的requests和re库实现淘宝商品的比价爬虫。通过模拟登录获取cookie，解析HTML页面，利用正则表达式提取商品名称和价格，将数据存储到列表中并输出。博客涵盖了cookie获取、请求头设置、正则匹配、数据处理等关键步骤。

摘要由CSDN通过智能技术生成

功能描述

目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格。

技术路线：requests re

程序的结构设计

步骤1：提交商品搜索请求，循环获取页面
步骤2：对于每个页面，提取商品名称和价格信息
步骤3：将信息输出到屏幕上

核心操作：

浏览器获取cookie和user-agent信息，设置成kv键值对当做请求头参数header放入requests.get()方法中
在html页面中找到商品名称和价格信息对应的键值对，并使用相应的正则表达式与之匹配，在进行搜索
搜索到匹配的字符串后，需要用eval()和split()函数对其进行去引号处理和切割，并通过索引将其取出来，存入商品列表中
输出模板，使用format（）函数
设置depth变量的for循环实现翻页爬取

爬取时需要模拟淘宝登录信息

#cookie的获取方法：

打开淘宝商品页面，登录你的淘宝账号——F12进入浏览器的开发者调试工具，点击Network，重新刷新页面——选择最上面的search?initiative_id=…的dos文件——找到Request Headers，复制里面的cookie内容，这样，你就能够获得你的cookie了

发起请求的函数

需要使用开发者工具获得浏览器cookies信息

导库

import requests
import re

def gethttptext(url):
    try:
        kv = {
   
            'cookie'：####
           , 'user-agent':'Mozilla/5.0'
        }
        r=requests.get(url

最低0.47元/天解锁文章