对淘宝商品信息进行数据分析
项目流程:
1、数据获取
2、数据清洗
3、数据分析与可视化
数据获取(爬虫)
淘宝数据是通过动态加载的方式显示的,所以采用selenium模拟浏览器操作爬取商品页详情信息。
爬取关键词为零食
打开淘宝搜索页,输入关键词后观察前后几页的网址变化,会发现一个规律
url=“https://s.taobao.com/search?ie=utf8&initiative_id=staobaoz_20190920&stats_click=search_radio_all%3A1&js=1&imgfile=&q=%E9%9B%B6%E9%A3%9F&suggest=0_1&_input_charset=utf-8&wq=LINGSHI&suggest_query=LINGSHI&source=suggest&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=0”,后面几页接着是44,88。。。。。
所以我们爬取url可以寻找规律进行爬取(我尝试过用selenium里面的ActionsChains().click()模拟自动翻页,但是爬取过后的数据是重复的)
# -*- coding: utf-8 -*-
from pyquery import PyQuery as pq
import time
import csv
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.common.action_chains import ActionChains
def get_text(page_source):
html = page_source
doc = pq(html)
items = doc('#mainsrp-itemlist .items .item').items()
for item in items:
product = {
'image': item.find('.pic .img').attr('data-src'),
'price': item.find('.price').text(),
'deal': item.find('.deal-cnt').text(),
'title': item.find('.title').text(),
'shop': item.find('.shop').text