python——爬取淘宝网页进行比价

爬取淘宝网页进行商品比价

功能描述:

  1. 目标:获取淘宝搜索页面的信息,提取其中商品名称与价格。
  2. 理解:
    淘宝的搜索接口
    翻页处理
  3. 网页分析

网页分析

搜索“来自深渊手办”,第一页网址:“https://s.taobao.com/search?q=%E6%9D%A5%E8%87%AA%E6%B7%B1%E6%B8%8A%E6%89%8B%E5%8A%9E&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200207&ie=utf8”
第二页网址:“https://s.taobao.com/search?q=%E6%9D%A5%E8%87%AA%E6%B7%B1%E6%B8%8A%E6%89%8B%E5%8A%9E&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200207&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44
第三页网址:“https://s.taobao.com/search?q=%E6%9D%A5%E8%87%AA%E6%B7%B1%E6%B8%8A%E6%89%8B%E5%8A%9E&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200207&ie=utf8&bcoffset=1&ntoffset=1&p4ppushleft=1%2C48&s=88

程序的结构设计

  1. 提交商品搜索请求,循环获取页面
  2. 对于每个页面,提取商品名称和价格信息
  3. 将信息输出到屏幕上

代码:

这里提取了cookie,有参考其他博主的博客

import requests
import re

def getHTMLText(url):
    """提取页面HTML代码,并返回HTML文本"""
    kv = {
   'cookie':'t=5c749e8d453e7e3664735746f5eb5de8; cna=BrXNFDenbXUCAXggNKX9H1bo; thw=cn; tg=0; enc=5LMRHD8305w3oo8X0agYVFUDa7Ox%2F4RBf34oCWap48nRHy%2B%2B1RZCWZJ7ebn%2Fpy7vRNIL8xpS%2Ba0oNFXG5nSu8w%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; cookie2=10dbf1309bd9a2d5bc9cabe562965aee; _tb_token_=ee67e1a3ee0e5; alitrackid=www.taobao.com; swfstore=308730; v=0; unb=2448224718; sg=%E6%BB%A18d; _l_g_=Ug%3D%3D; skt=d53506c42f2db259; cookie1=BxUHGXuG%2B5Y4Iw7vZCvjLJ0zDvFL2Xy3mjxT%2
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值