随着互联网普及率的提高,电子商务也得到了巨大的发展。由于近几年网民数量的暴增以及电商平台的增加,网购现在已经变成了一种新的消费方式。对于用户而言,在网购时需要面对这些各具特色的商品,变得难以选择。商家也希望能够从各种用户的购物信息中得到启示,拿到数据背后的价值。以Python语言作为基本开发语言,选用PyCharm作为开发工具,把淘宝作为抓取对象,实现对零食销量信息的抓取。将收集的数据保存为CSV文件,然后导入CSV进行数据分析。接着对数据进行可视化操作,
部分代码如下
需要源码可评论
# -*- coding: utf-8 -*-
from selenium import webdriver
import time
import csv
import os
from selenium.webdriver.common.by import By
search_goods = '零食'
url = 'https://login.taobao.com/member/login.jhtml'
d = webdriver.Chrome()
d.maximize_window()
d.get(url)
time.sleep(3)
d.find_element(By.XPATH, '//*[@id="login"]/div[1]/i').click()
time.sleep(30) # 等待 登录
d.find_element(By.XPATH, '//*[@id="q"]').click()
d.find_element(By.XPATH, '//*[@id="q"]').send_keys(search_goods)
d.find_element(By.XPATH, '//*[@id="J_TSearchForm"]/div[1]/button').click()
# 当前打开的所有窗口
windows = d.window_handles
# 转换到最新打开的窗口
d.switch_to.window(windows[-1])
def save():
list = d.find_elements(By.CSS_SELECTOR, '#mainsrp-itemlist .items .item.J_MouserOnverReq ')
for li in list:
item = dict()
# 获取商品名称
item['标题'] = li.find_element_by_css_selector('.row.row-2.title').text
# 获取商品链接
item['链接'] = 'https:' + li.find_element_by_css_selector('.pic a').get_attribute('data-href')
# 获取商品价格
item['价格'] = li.find_element_by_css_selector('.ctx-box.J_MouseEneterLeave.J_IconMoreNew strong').text
if item['价格'] == '':
item['价格'] = 0
# 获取商品销量
item['销量'] = li.find_element_by_css_selector('.ctx-box.J_MouseEneterLeave.J_IconMoreNew .deal-cnt').text
if item['销量'] == '':
item['销量'] = 0
else:
item['销量'] = item['销量'].replace('+人付款', '').replace('人付款', '')
if '万' in item['销量']:
deal = item['销量'].replace('万', '')
item['销量'] = int(float(deal) * 10000)