用Python爬取淘宝4403条大裤衩数据进行分析，终于找到可以入手的那一条

最新推荐文章于 2020-12-04 12:17:22 发布

菜J学Python

最新推荐文章于 2020-12-04 12:17:22 发布

阅读量801

点赞数 2

文章标签：数据分析 python selenium

本文链接：https://blog.csdn.net/jj8999999/article/details/107554622

版权

本文使用Python的selenium爬取淘宝4403条大裤衩数据，进行清洗与可视化分析。研究了国内销售热门地区、价格分布、高销量店铺及商品特点，帮助选择合适的大裤衩。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

更多内容欢迎关注公众号
炎炎夏日，长裤已难以满足广大男生的需求，为了在搬砖和摆摊的过程中增添一丝舒适感，他们开始寻找一种神奇的存在——大裤衩。J哥在种菜的这些日子里也日益感受到大裤衩的重要性，于是，默默打开了淘宝并搜索了大裤衩，但翻了半天也不知道买啥。

无比懊恼的J哥扔掉了手机，打开电脑并爬取了淘宝4403条大裤衩数据，然后进行了可视化分析，并最终找到一条可以入手的大裤衩。本文主要尝试解决以下几个问题：

国内哪些地方的大裤衩卖的比较好？
大裤衩市场价格是怎样的？
哪些店铺大裤衩销量较高？
在售的大裤衩具有哪些特点？

一、数据获取

淘宝网站是一个ajax动态加载的网站，只能通过解析接口或用selenium自动化测试工具去爬取。关于动态网页爬虫，本公众号历史原创文章「实战|Python轻松实现动态网页爬虫(附详细源码)」介绍过，感兴趣的朋友可以了解一下。

本次数据获取采用selenium，由于J哥的谷歌浏览器版本更新较快，导致原来的谷歌驱动失效。于是，我禁用了浏览器自动更新，并下载了对应版本的驱动。

浏览器驱动必须与浏览器版本匹配，否则selenium将失效，这里也给出下载链接：
http://chromedriver.storage.googleapis.com/index.html

接着，J哥利用selenium在淘宝网搜索大裤衩，手机扫码登录，获得了大裤衩的商品名称、商品价格、付款人数、店铺名称、发货地址等信息。限于篇幅，爬虫代码仅给出主函数，感兴趣的朋友可以在公众号后台联系我获取。

 1    def main():
 2    browser.get('https://www.taobao.com/')
 3    page = search_product(key_word)
 4    print(page)
 5    get_data()
 6    page_num = 1
 7    while int(page) != page_num:
 8        print("-" * 100)
 9        print("正在爬取第{}页大裤衩数据".format(page_num + 1))
10        browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))
11        browser.implicitly_wait(10)
12        get_data()
13        page_num += 1
14    print("大裤衩数据抓取完成")
15
16<

最低0.47元/天解锁文章