2024年你们都说淘宝是最难爬的网站了？用我这个方法包你学会！

最新推荐文章于 2024-07-25 19:59:32 发布

2401_84556564

最新推荐文章于 2024-07-25 19:59:32 发布

阅读量89

点赞数 16

分类专栏：程序员文章标签： okhttp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84556564/article/details/138375219

版权

程序员专栏收录该内容

136 篇文章 0 订阅

订阅专栏

本文介绍了如何使用Python抓取淘宝商品数据，包括搜索接口的使用、参数解析，以及抓取后的数据可视化展示，展示了从搜索商品到数据处理的完整过程。

摘要由CSDN通过智能技术生成

我真不想在这个库里添加这个功能，后面我倒是想添加一些其他爬虫相关的功能，这个之后再说吧。好的，偏题了，言归正传吧。接着，我们去网页版的淘宝抓一波包吧。比如F12打开开发者工具后，在淘宝的商品搜索栏里随便输入点东西，就像这样：

全局搜索一下诸如search这样的关键词，可以发现如下链接：

看看它返回的数据是啥：

看来应该没错了。另外，如果小伙伴们自己实战的时候没有找到这个接口api，可以尝试再点击一下右上角的下一页商品按钮：

这样就肯定能抓到这个请求接口啦。简单测试一下，可以发现尽管请求这个接口所需携带的参数看上去很多，但实际上必须要提交的参数只有两个，即：

q: 商品名称 s: 当前页码的偏移量

好啦，根据这个接口，以及我们的测试结果，现在就可以愉快地开始实现淘宝商品数据的抓取啦。具体而言，主代码实现如下：

‘’‘外部调用’‘’

def run(self):

search_url = ‘https://s.taobao.com/search?’

while True:

goods_name = input('请输入想要抓取的商品信息名称: ')

offset = 0

page_size = 44

goods_infos_dict = {}

page_interval = random.randint(1, 5)

page_pointer = 0

while True:

params = {

‘q’: goods_name,

‘ajax’: ‘true’,

‘ie’: ‘utf8’,

‘s’: str(offset)

}

response = self.session.get(search_url, params=params)

if (response.status_code != 200):

break

response_json = response.json()

all_items = response_json.get(‘mods’, {}).get(‘itemlist’, {}).get(‘data’, {}).get(‘auctions’, [])

if len(all_items) == 0:

break

for item in all_items:

if not item[‘category’]:

continue

goods_infos_dict.update({len(goods_infos_dict)+1:

{

‘shope_name’: item.get(‘nick’, ‘’),

‘title’: item.get(‘raw_title’, ‘’),

‘pic_url’: item.get(‘pic_url’, ‘’),

‘detail_url’: item.get(‘detail_url’, ‘’),

‘price’: item.get(‘view_price’, ‘’),

‘location’: item.get(‘item_loc’, ‘’),

‘fee’: item.get(‘view_fee’, ‘’),

‘num_comments’: item.get(‘comment_count’, ‘’),

‘num_sells’: item.get(‘view_sales’, ‘’)

}

})

print(goods_infos_dict)

self.__save(goods_infos_dict, goods_name+‘.pkl’)

offset += page_size

if offset // page_size > 100:

break

page_pointer += 1

if page_pointer == page_interval:

time.sleep(random.randint(30, 60)+random.random()*10)

page_interval = random.randint(1, 5)

page_pointer = 0

else:

time.sleep(random.random()+2)

print(‘[INFO]: 关于%s的商品数据抓取完毕, 共抓取到%s条数据…’ % (goods_name, len(goods_infos_dict)))

就是这么简单，我们已经大功告成啦。最后，我们再来看下代码的运行效果呗：

数据可视化

这里我们来可视化一波我们抓到的奶茶数据呗。先来看看在淘宝上卖奶茶的商家在全国范围内的数量分布情况呗：

没想到啊，奶茶店铺最多的地方竟然是广东。T_T

再来看看淘宝上卖奶茶的店铺的销量排名前10名呗：

最后

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

👉Python所有方向的学习路线👈

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

👉Python必备开发工具👈

工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。

👉Python全套学习视频👈

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。

👉实战案例👈

学python就与学数学一样，是不能只看书不做题的，直接看步骤和答案会让人误以为自己全都掌握了，但是碰到生题的时候还是会一筹莫展。

因此在学习python的过程中一定要记得多动手写代码，教程只需要看一两遍即可。

👉大厂面试真题👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

需要这份系统化学习资料的朋友，可以戳这里无偿获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

关注

16
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
2024年你们都说淘宝是最难爬的网站了？用我这个方法包你学会！

Python崛起并且风靡，因为优点多、应用领域广、被大牛们认可。学习 Python 门槛很低，但它的晋级路线很多，通过它你能进入机器学习、数据挖掘、大数据，CS等更加高级的领域。Python可以做网络应用，可以做科学计算，数据分析，可以做网络爬虫，可以做机器学习、自然语言处理、可以写游戏、可以做桌面应用…Python可以做的很多，你需要学好基础，再选择明确的方向。这里给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。