Python网络爬虫爬淘宝无法爬取问题的解决方法

最新推荐文章于 2024-07-25 19:59:32 发布

holyjesus

最新推荐文章于 2024-07-25 19:59:32 发布

阅读量6.2k

点赞数 8

分类专栏：初学者文章标签： python网络爬虫爬淘宝价格信息

本文链接：https://blog.csdn.net/holyjesus/article/details/100835712

版权

根据北京理工大学嵩天教授的Python网络爬虫课程，实际爬取淘宝价格信息时遇到困难，因为淘宝自19年起要求搜索必须登录。为解决此问题，需要在Python爬虫中模拟登录，通过获取浏览器中的cookie信息放入headers中。具体步骤包括在浏览器审查元素中找到headers的cookies，刷新页面并粘贴到爬虫代码的header部分。

摘要由CSDN通过智能技术生成

看了嵩天教授的【Python网络爬虫与信息提取】.MOOC. 北京理工大学课程，里面有一段演示如何从淘宝爬取价格信息，但实际操作却不行，问题在于淘宝19年开始实行搜索必须登录，但是Python爬取该如何做呢？

先上完整代码：

import requests
import re

def getHTMLText(url): #获得页面函数,淘宝需要登录验证，暂时访问不了
    try:
        header={
            'user-agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
            'cookie':'thw=cn; tracknick=***;*************************************************************************3fP.'
        }
        r=requests.get(url,headers=header,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        # print(r.text)
        return r.text
    except:
        return ""

def parsePage(ilt,html): #解析获得的页面
    try:
        plt=re.findall(r'\"view_price\"\:\"[\d\.]*"',html)
        tlt=re.findall(