淘宝商品比价定向爬虫

本文介绍了一个基于Python的淘宝商品比价定向爬虫项目。在实施过程中,作者遇到了cookie值过期的问题,通过查阅资料找到了解决方案。文章提到,由于淘宝网站的更新,现在爬虫需要添加headers和cookie值。目前存在的挑战包括每次爬取前需重新获取cookie以及商品每页数量不固定,导致爬取数量不确定性。作者分享了参考的博客链接以供解决这些问题。
摘要由CSDN通过智能技术生成

本文是北理嵩天老师的MOOC中的一个实例。

本人编写中也遇到了一些困难,其中就有cookie值过期的疑惑,后来从这篇文章中获得了解决,大家若有同样的疑问可以移步查看一下(我是用的方法二)。

根据嵩老师的课程(2016年左右),有一部分在现在是不适用的,从这篇文章中知道了要添加headers和cookie值才能正确爬取。

直至现在仍有一些疑问存在,分别是:

1、cookie值每爬取一次就要重新获取,非常麻烦

2、淘宝每页的商品数量是不同的,随机的,我本人的是第一页为47个,第二页为41个,所以不能保证爬取多少个商品,只能按最大值获取

代码如下:

import requests
import re

def getHTMLText(url):
    try:
        header = {'user-agent':'Mozilla/5.0','cookie':'_m_h5_tk=c967f
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值