用requests和re库爬取淘宝信息

最新推荐文章于 2024-07-25 19:59:32 发布

onlynima

最新推荐文章于 2024-07-25 19:59:32 发布

阅读量1.4k

点赞数 2

分类专栏： python

本文链接：https://blog.csdn.net/onlynima/article/details/103808124

版权

步骤：

导入必要的requests和re库。
使用requests库获取淘宝搜索页面的代码内容，其中使用curl.trillworks.com神器访问页面源码
使用re库对搜索页面中的内容进行搜索匹配，获取想要的商品名称和价格信息
将获取的信息全部打印出来

设置请求头header，这样才可以伪装成浏览器
用谷歌浏览器打开淘宝，用关键词“手机”搜索后，按F12进入检查，查看Network，选中第一行，右击选中“copy as cURL(bash)，然后讲复制到的信息粘贴到https://curl.trillworks.com/，网页将自动生成requests表头和参数信息。
将生成的headers={ } 这块信息复制到我们要编写的代码中，赋值给一个变量，将该变量作为requests.get()的表头参数，这样就可以访问淘宝搜索页面的表头信息了。

在这里插入图片描述

import requests
import re
 
def getHTMLText(url):
    f_headers = {
   
    'authority': 's.taobao.com',
    'cache-control': 'max-age=0',
    'upgrade-insecure-requests': '1',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36',
    'sec-fetch-user': '?1',
    'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',

最低0.47元/天解锁文章

onlynima

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
用requests和re库爬取淘宝信息

步骤：导入必要的requests和re库。使用requests库获取淘宝搜索页面的代码内容，其中使用curl.trillworks.com神器访问页面源码使用re库对搜索页面中的内容进行搜索匹配，获取想要的商品名称和价格信息将获取的信息全部打印出来设置请求头header，这样才可以伪装成浏览器用谷歌浏览器打开淘宝，用关键词“手机”搜索后，按F12进入检查，查看Net...
复制链接

扫一扫

专栏目录