python——爬取淘宝网页进行比价

最新推荐文章于 2024-07-25 19:59:32 发布

luli_ya

最新推荐文章于 2024-07-25 19:59:32 发布

阅读量1.1k

点赞数 1

本文链接：https://blog.csdn.net/luli_ya/article/details/104210660

版权

爬取淘宝网页进行商品比价

功能描述：

目标：获取淘宝搜索页面的信息，提取其中商品名称与价格。
理解：
淘宝的搜索接口
翻页处理
网页分析

网页分析

搜索“来自深渊手办”，第一页网址：“https://s.taobao.com/search?q=%E6%9D%A5%E8%87%AA%E6%B7%B1%E6%B8%8A%E6%89%8B%E5%8A%9E&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200207&ie=utf8”
第二页网址：“https://s.taobao.com/search?q=%E6%9D%A5%E8%87%AA%E6%B7%B1%E6%B8%8A%E6%89%8B%E5%8A%9E&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200207&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44”
第三页网址：“https://s.taobao.com/search?q=%E6%9D%A5%E8%87%AA%E6%B7%B1%E6%B8%8A%E6%89%8B%E5%8A%9E&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200207&ie=utf8&bcoffset=1&ntoffset=1&p4ppushleft=1%2C48&s=88”

程序的结构设计

提交商品搜索请求，循环获取页面
对于每个页面，提取商品名称和价格信息
将信息输出到屏幕上

代码：

这里提取了cookie，有参考其他博主的博客

import requests
import re

def getHTMLText(url):
    """提取页面HTML代码，并返回HTML文本"""
    kv = {
   'cookie':'t=5c749e8d453e7e3664735746f5eb5de8; cna=BrXNFDenbXUCAXggNKX9H1bo; thw=cn; tg=0; enc=5LMRHD8305w3oo8X0agYVFUDa7Ox%2F4RBf34oCWap48nRHy%2B%2B1RZCWZJ7ebn%2Fpy7vRNIL8xpS%2Ba0oNFXG5nSu8w%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; cookie2=10dbf1309bd9a2d5bc9cabe562965aee; _tb_token_=ee67e1a3ee0e5; alitrackid=www.taobao.com; swfstore=308730; v=0; unb=2448224718; sg=%E6%BB%A18d; _l_g_=Ug%3D%3D; skt=d53506c42f2db259; cookie1=BxUHGXuG%2B5Y4Iw7vZCvjLJ0zDvFL2Xy3mjxT%2