数据分析实战二:爬取淘宝商品详情页进行分析

本文详细介绍了如何使用Python爬虫抓取淘宝零食商品信息,进行数据清洗,然后利用Tableau进行数据分析和可视化。通过词频分析,发现休闲食品销量领先,顾客偏好整箱购买,口味偏向香辣、麻辣和卤味。价格分析显示,销售量与价格呈近似反比关系,消费者普遍接受0~100元的价格区间。上海等地的零食销售额突出。
摘要由CSDN通过智能技术生成

对淘宝商品信息进行数据分析

项目流程:
1、数据获取
2、数据清洗
3、数据分析与可视化

数据获取(爬虫)

淘宝数据是通过动态加载的方式显示的,所以采用selenium模拟浏览器操作爬取商品页详情信息。
爬取关键词为零食
打开淘宝搜索页,输入关键词后观察前后几页的网址变化,会发现一个规律
url=“https://s.taobao.com/search?ie=utf8&initiative_id=staobaoz_20190920&stats_click=search_radio_all%3A1&js=1&imgfile=&q=%E9%9B%B6%E9%A3%9F&suggest=0_1&_input_charset=utf-8&wq=LINGSHI&suggest_query=LINGSHI&source=suggest&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=0”,后面几页接着是44,88。。。。。
所以我们爬取url可以寻找规律进行爬取(我尝试过用selenium里面的ActionsChains().click()模拟自动翻页,但是爬取过后的数据是重复的)

# -*- coding: utf-8 -*-
from pyquery import PyQuery as pq
import time
import csv
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains

def get_text(page_source):
    html = page_source
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()
    for item in items:
        product = {
   
            'image': item.find('.pic .img').attr('data-src'),
            'price': item.find('.price').text(),
            'deal': item.find('.deal-cnt').text(),
            'title': item.find('.title').text(),
            'shop': item.find('.shop').text
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值