淘宝商品比价定向爬虫

最新推荐文章于 2024-10-11 11:33:53 发布

云之声759

最新推荐文章于 2024-10-11 11:33:53 发布

阅读量1.3k

点赞数 2

分类专栏： Python 文章标签： python cookie 爬虫

本文链接：https://blog.csdn.net/huitinfeng/article/details/114478509

版权

本文介绍了一个基于Python的淘宝商品比价定向爬虫项目。在实施过程中，作者遇到了cookie值过期的问题，通过查阅资料找到了解决方案。文章提到，由于淘宝网站的更新，现在爬虫需要添加headers和cookie值。目前存在的挑战包括每次爬取前需重新获取cookie以及商品每页数量不固定，导致爬取数量不确定性。作者分享了参考的博客链接以供解决这些问题。

摘要由CSDN通过智能技术生成

本文是北理嵩天老师的MOOC中的一个实例。

本人编写中也遇到了一些困难，其中就有cookie值过期的疑惑，后来从这篇文章中获得了解决，大家若有同样的疑问可以移步查看一下（我是用的方法二）。

根据嵩老师的课程（2016年左右），有一部分在现在是不适用的，从这篇文章中知道了要添加headers和cookie值才能正确爬取。

直至现在仍有一些疑问存在，分别是：

1、cookie值每爬取一次就要重新获取，非常麻烦

2、淘宝每页的商品数量是不同的，随机的，我本人的是第一页为47个，第二页为41个，所以不能保证爬取多少个商品，只能按最大值获取

代码如下：

import requests
import re

def getHTMLText(url):
    try:
        header = {'user-agent':'Mozilla/5.0','cookie':'_m_h5_tk=c967f

最低0.47元/天解锁文章

云之声759

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录