Python爬虫-“淘宝商品信息定向爬虫”实例介绍

“淘宝商品信息定向爬虫”实例介绍

功能描述

目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格。
理解:淘宝的搜索接口 翻页的处理
技术路线:requests­ re

程序的结构设计

步骤1:提交商品搜索请求,循环获取页面
步骤2:对于每个页面,提取商品名称和价格信息
步骤3:将信息输出到屏幕上

代码实现

用爬虫爬取淘宝,淘宝网有robots协议所以不能直接爬取,需要登录获取头部headers信息。
步骤1:登录淘宝,进入搜索页,F12
步骤2:选择Network,Ctrl+R刷新,找到上方以search?为开头的文件,右键
在这里插入图片描述
步骤3:选择copy,copy as cURL(bash)
步骤4:在转换,将上一步复制的内容粘贴到curl command窗口
在这里插入图片描述
5.复制右侧的headers内容,在程序中用以变量header保存,作为参数传给requests.get(url,headers=header)
代码:

#淘宝商品信息定向爬虫
import re
import requests
def getHTMLText(url):#从网络获取网友内容
    try:
        headers = {
   
    'authority': 's.taobao.com',
    'cache-control': 'max-age=0',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36',
    'sec-fetch-user': '?1',
     'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3'
  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值