用爬虫爬取淘宝,需要进行登录,获得头部header信息,得到该信息后将此信息作为参数传递给getHtmlText函数中的header.
获得头部信息:
(1)登录淘宝页面,打开开发人员工具页面
(2)重新加载,找到Network下的第一条链接
(3)复制链接到https://curl.trillworks.com/中的curl command,将其转换为python requests
import requests
import re
import xlwt
def getHtmlText(url):
try:
header = {
'authority': 'uland.taobao.com',
'pragma': 'no-cache',
'cache-control': 'no-cache',
'upgrade-insecure-requests': '1',
'user-agent':,
'accept':
'referer':
'accept-encoding': ,
'accept-language':,
'cookie': ,
} # 隐去了cookie信息和referer等信息
r