爬取淘宝商品信息时必须获取cookie,因为淘宝有反爬虫机制!!!
**淘宝爬虫机制查看:**https://www.taobao.com/robots.txt
我们需要headers标签修改我们的cookie,让爬虫像人一样搜索页面
此处以爬取书包信息为例
import requests
import re
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def parsePage(ilt, html):
try:
plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
tlt = re