简单爬取淘宝基本信息

最新推荐文章于 2024-07-25 19:59:32 发布

素馨星

最新推荐文章于 2024-07-25 19:59:32 发布

阅读量1.2k

点赞数

文章标签： python

本文链接：https://blog.csdn.net/qq_44735382/article/details/104296965

版权

本文介绍如何利用Python爬虫获取淘宝网站的基本信息。首先，需要登录并获取页面的头部header信息。通过开发者工具观察网络请求，在Network下找到第一条链接，复制其curl命令，并在curl.trillworks.com中转换为Python的requests请求代码。

摘要由CSDN通过智能技术生成

用爬虫爬取淘宝，需要进行登录，获得头部header信息，得到该信息后将此信息作为参数传递给getHtmlText函数中的header.
获得头部信息：
（1）登录淘宝页面，打开开发人员工具页面
在这里插入图片描述
（2）重新加载，找到Network下的第一条链接

（3）复制链接到https://curl.trillworks.com/中的curl command，将其转换为python requests

import requests
import re
import xlwt
def getHtmlText(url):
    try:
        header = {
   
            'authority': 'uland.taobao.com',
            'pragma': 'no-cache',
            'cache-control': 'no-cache',
            'upgrade-insecure-requests': '1',
            'user-agent':,
            'accept': 
            'referer': 
            'accept-encoding': ,
            'accept-language':,
            'cookie': ,
        }  # 隐去了cookie信息和referer等信息
        r