爬取淘宝网页进行商品比价
功能描述:
- 目标:获取淘宝搜索页面的信息,提取其中商品名称与价格。
- 理解:
淘宝的搜索接口
翻页处理 - 网页分析
网页分析
搜索“来自深渊手办”,第一页网址:“https://s.taobao.com/search?q=%E6%9D%A5%E8%87%AA%E6%B7%B1%E6%B8%8A%E6%89%8B%E5%8A%9E&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200207&ie=utf8”
第二页网址:“https://s.taobao.com/search?q=%E6%9D%A5%E8%87%AA%E6%B7%B1%E6%B8%8A%E6%89%8B%E5%8A%9E&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200207&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44”
第三页网址:“https://s.taobao.com/search?q=%E6%9D%A5%E8%87%AA%E6%B7%B1%E6%B8%8A%E6%89%8B%E5%8A%9E&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20200207&ie=utf8&bcoffset=1&ntoffset=1&p4ppushleft=1%2C48&s=88”
程序的结构设计
- 提交商品搜索请求,循环获取页面
- 对于每个页面,提取商品名称和价格信息
- 将信息输出到屏幕上
代码:
这里提取了cookie,有参考其他博主的博客
import requests
import re
def getHTMLText(url):
"""提取页面HTML代码,并返回HTML文本"""
kv = {
'cookie':'t=5c749e8d453e7e3664735746f5eb5de8; cna=BrXNFDenbXUCAXggNKX9H1bo; thw=cn; tg=0; enc=5LMRHD8305w3oo8X0agYVFUDa7Ox%2F4RBf34oCWap48nRHy%2B%2B1RZCWZJ7ebn%2Fpy7vRNIL8xpS%2Ba0oNFXG5nSu8w%3D%3D; hng=CN%7Czh-CN%7CCNY%7C156; cookie2=10dbf1309bd9a2d5bc9cabe562965aee; _tb_token_=ee67e1a3ee0e5; alitrackid=www.taobao.com; swfstore=308730; v=0; unb=2448224718; sg=%E6%BB%A18d; _l_g_=Ug%3D%3D; skt=d53506c42f2db259; cookie1=BxUHGXuG%2B5Y4Iw7vZCvjLJ0zDvFL2Xy3mjxT%2