用requests和re库爬取淘宝信息

步骤:

  1. 导入必要的requests和re库。

  2. 使用requests库获取淘宝搜索页面的代码内容,其中使用curl.trillworks.com神器访问页面源码

  3. 使用re库对搜索页面中的内容进行搜索匹配,获取想要的商品名称和价格信息

  4. 将获取的信息全部打印出来

设置请求头header,这样才可以伪装成浏览器
用谷歌浏览器打开淘宝,用关键词“手机”搜索后,按F12进入检查,查看Network,选中第一行,右击选中“copy as cURL(bash),然后讲复制到的信息粘贴到https://curl.trillworks.com/,网页将自动生成requests表头和参数信息。
将生成的headers={ } 这块信息复制到我们要编写的代码中,赋值给一个变量,将该变量作为requests.get()的表头参数,这样就可以访问淘宝搜索页面的表头信息了。

在这里插入图片描述
在这里插入图片描述

import requests
import re
 
def getHTMLText(url):
    f_headers = {
   
    'authority': 's.taobao.com',
    'cache-control': 'max-age=0',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36',
    'sec-fetch-user': '?1',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值