数据分析实战二：爬取淘宝商品详情页进行分析

最新推荐文章于 2024-05-01 08:52:31 发布

青枫浦岸

最新推荐文章于 2024-05-01 08:52:31 发布

阅读量2.8k

点赞数 4

文章标签：数据分析 python 爬虫 tableau

本文链接：https://blog.csdn.net/qq_43692262/article/details/101063926

版权

本文详细介绍了如何使用Python爬虫抓取淘宝零食商品信息，进行数据清洗，然后利用Tableau进行数据分析和可视化。通过词频分析，发现休闲食品销量领先，顾客偏好整箱购买，口味偏向香辣、麻辣和卤味。价格分析显示，销售量与价格呈近似反比关系，消费者普遍接受0~100元的价格区间。上海等地的零食销售额突出。

摘要由CSDN通过智能技术生成

对淘宝商品信息进行数据分析

项目流程：
1、数据获取
2、数据清洗
3、数据分析与可视化

数据获取（爬虫）

淘宝数据是通过动态加载的方式显示的，所以采用selenium模拟浏览器操作爬取商品页详情信息。
爬取关键词为零食
打开淘宝搜索页，输入关键词后观察前后几页的网址变化，会发现一个规律
url=“https://s.taobao.com/search?ie=utf8&initiative_id=staobaoz_20190920&stats_click=search_radio_all%3A1&js=1&imgfile=&q=%E9%9B%B6%E9%A3%9F&suggest=0_1&_input_charset=utf-8&wq=LINGSHI&suggest_query=LINGSHI&source=suggest&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=0”，后面几页接着是44，88。。。。。
所以我们爬取url可以寻找规律进行爬取（我尝试过用selenium里面的ActionsChains().click()模拟自动翻页，但是爬取过后的数据是重复的）

# -*- coding: utf-8 -*-
from pyquery import PyQuery as pq
import time
import csv
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains

def get_text(page_source):
    html = page_source
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()
    for item in items:
        product = {
   
            'image': item.find('.pic .img').attr('data-src'),
            'price': item.find('.price').text(),
            'deal': item.find('.deal-cnt').text(),
            'title': item.find('.title').text(),
            'shop': item.find('.shop').text