Python爬虫-“淘宝商品信息定向爬虫”实例介绍

最新推荐文章于 2024-07-02 16:17:45 发布

错落星辰.

最新推荐文章于 2024-07-02 16:17:45 发布

阅读量1.4k

点赞数 2

本文链接：https://blog.csdn.net/qq_46068895/article/details/106298625

版权

“淘宝商品信息定向爬虫”实例介绍

功能描述

目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格。
理解：淘宝的搜索接口翻页的处理
技术路线：requests re

程序的结构设计

步骤1：提交商品搜索请求，循环获取页面
步骤2：对于每个页面，提取商品名称和价格信息
步骤3：将信息输出到屏幕上

代码实现

用爬虫爬取淘宝，淘宝网有robots协议所以不能直接爬取，需要登录获取头部headers信息。
步骤1：登录淘宝，进入搜索页，F12
步骤2：选择Network，Ctrl+R刷新，找到上方以search？为开头的文件，右键
在这里插入图片描述
步骤3：选择copy，copy as cURL（bash)
步骤4：在转换，将上一步复制的内容粘贴到curl command窗口

5.复制右侧的headers内容，在程序中用以变量header保存，作为参数传给requests.get(url，headers=header)
代码：

#淘宝商品信息定向爬虫
import re
import requests
def getHTMLText(url):#从网络获取网友内容
    try:
        headers = {
   
    'authority': 's.taobao.com',
    'cache-control': 'max-age=0',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
    'sec-fetch-user': '?1',
     'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3'