【Python爬虫学习】淘宝商品比价爬虫实战

该博客介绍了如何使用Python的requests和re库实现淘宝商品的比价爬虫。通过模拟登录获取cookie,解析HTML页面,利用正则表达式提取商品名称和价格,将数据存储到列表中并输出。博客涵盖了cookie获取、请求头设置、正则匹配、数据处理等关键步骤。
摘要由CSDN通过智能技术生成

功能描述

目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格。
技术路线:requests­ re
程序的结构设计
步骤1:提交商品搜索请求,循环获取页面
步骤2:对于每个页面,提取商品名称和价格信息
步骤3:将信息输出到屏幕上
核心操作:
  1. 浏览器获取cookie和user-agent信息,设置成kv键值对当做请求头参数header放入requests.get()方法中

  2. 在html页面中找到商品名称和价格信息对应的键值对,并使用相应的正则表达式与之匹配,在进行搜索

  3. 搜索到匹配的字符串后,需要用eval()和split()函数对其进行去引号处理和切割,并通过索引将其取出来,存入商品列表中

  4. 输出模板,使用format()函数

  5. 设置depth变量的for循环实现翻页爬取


爬取时需要模拟淘宝登录信息

#cookie的获取方法:

打开淘宝商品页面,登录你的淘宝账号——F12进入浏览器的开发者调试工具,点击Network,重新刷新页面——选择最上面的search?initiative_id=…的dos文件——找到Request Headers,复制里面的cookie内容,这样,你就能够获得你的cookie了


发起请求的函数

需要使用开发者工具获得浏览器cookies信息

导库

import requests
import re
def gethttptext(url):
    try:
        kv = {
   
            'cookie'####
           , 'user-agent':'Mozilla/5.0'
        }
        r=requests.get(url
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值