python爬取淘宝页面cookie requests库和re正则表达式库（最新）中国大学MOOC嵩天Python网络爬虫与信息提取cookie

最新推荐文章于 2022-12-07 06:00:00 发布

Barry_kk

最新推荐文章于 2022-12-07 06:00:00 发布

阅读量4.4k

点赞数 1

分类专栏： python网络爬虫与数据分析文章标签： python request 爬虫正则表达式数据挖掘

本文链接：https://blog.csdn.net/Barry_kk/article/details/121583594

版权

本文介绍了如何在Python中使用requests库和正则表达式库来应对淘宝的反爬虫机制，通过获取和设置cookie进行有效的网络爬虫。以爬取书包商品信息为实例，详细阐述了爬虫实现过程。

摘要由CSDN通过智能技术生成

爬取淘宝商品信息时必须获取cookie,因为淘宝有反爬虫机制！！！

**淘宝爬虫机制查看：**https://www.taobao.com/robots.txt
在这里插入图片描述
我们需要headers标签修改我们的cookie，让爬虫像人一样搜索页面

此处以爬取书包信息为例

import requests
import re


def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text

    except:
        return ""


def parsePage(ilt, html):
    try:
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
        tlt = re