爬虫设计初衷
此程序旨在完成个人电子商务课程结课作业相关商品的信息爬取。
注意事项
- 淘宝具有一定的反爬机制,主要为搜索需要账号登录,以及在爬取过程中弹出的滑块验证
- 此程序通过人工手动登录来实现跳过第一步反爬验证,目前还没有实现爬取过程中的滑块验证的突破
- 通过爬取部分页面的商品数据从而统计并预估全部页面商品数据(源代码中为遍历所有页面的理想状态)
源代码如下:
'''
利用Python-selenium对淘宝平台贵妃芒月平均销售额的统计
遍历所有页面,统计出全平台贵妃芒月销售额
因淘宝反爬机制,以下代码在登录后实现
'''
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
driver = webdriver.Chrome()
url = 'https://www.taobao.com'
name = '贵妃芒'
# 搜索
driver.get(url)
driver.find_element_by_id('q').send_keys(name)
driver.find_element_by_class_name('search-button').click()
# 手动登录
time.sleep(10)
# 初始化翻页次数和销售总额
n = 1
url_sale = 0
while n <= 100:
n += 1
time.sleep(3)
WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist > div > div > div:nth-child(1)')))
mango_frame = driver.find_element_by_class_name('items')
mango_list = mango_fram.find_elements_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div')
# 遍历当前页商品
for i in range(len(mango_list)):
# 商品月购买人数及价格
mango_purchase_number = int(mango_list[i].find_element_by_class_name('deal-cnt').text[:-3])
mango_price = float(mango_list[i].find_element_by_xpath('//*[@class="price g_price g_price-highlight"]/strong').text)
# 当前页面所有商品月销售额
url_sale += mango_price * mango_purchase_number
# 下一页面
try:
url_input = WebDriverWait(driver, 10).until(EC.presence_of_element_located(
(By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')))
url = WebDriverWait(driver, 10).until(EC.element_to_be_clickable(
(By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))
url_input.clear()
url_input.send_keys(n)
time.sleep(3)
url.click()
except Exception as e:
print(n)
break
# 预估商品所有页面数据
url_total_sale = url_sale / (n-1) * 100
# 将数据保存文档
with open('淘宝平台贵妃芒月平均销售额.txt', 'a', encoding='utf-8') as f:
f.write(str(url_total_sale))