简单爬取淘宝基本信息

本文介绍如何利用Python爬虫获取淘宝网站的基本信息。首先,需要登录并获取页面的头部header信息。通过开发者工具观察网络请求,在Network下找到第一条链接,复制其curl命令,并在curl.trillworks.com中转换为Python的requests请求代码。
摘要由CSDN通过智能技术生成

用爬虫爬取淘宝,需要进行登录,获得头部header信息,得到该信息后将此信息作为参数传递给getHtmlText函数中的header.
获得头部信息:
(1)登录淘宝页面,打开开发人员工具页面
在这里插入图片描述
(2)重新加载,找到Network下的第一条链接
在这里插入图片描述
(3)复制链接到https://curl.trillworks.com/中的curl command,将其转换为python requests

import requests
import re
import xlwt
def getHtmlText(url):
    try:
        header = {
   
            'authority': 'uland.taobao.com',
            'pragma': 'no-cache',
            'cache-control': 'no-cache',
            'upgrade-insecure-requests': '1',
            'user-agent':,
            'accept': 
            'referer': 
            'accept-encoding': ,
            'accept-language':,
            'cookie': ,
        }  # 隐去了cookie信息和referer等信息
        r
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值