基于Python-selenium半自动化淘宝爬虫

最新推荐文章于 2022-07-31 20:40:30 发布

Jennis_HT

最新推荐文章于 2022-07-31 20:40:30 发布

阅读量1.3k

点赞数

分类专栏：电子商务课程结课作业文章标签： pyhton-selenium 半自动化淘宝爬虫

本文链接：https://blog.csdn.net/Jennis_HT/article/details/89406132

版权

电子商务课程结课作业专栏收录该内容

1 篇文章 0 订阅

订阅专栏

爬虫设计初衷

此程序旨在完成个人电子商务课程结课作业相关商品的信息爬取。

注意事项

淘宝具有一定的反爬机制，主要为搜索需要账号登录，以及在爬取过程中弹出的滑块验证
此程序通过人工手动登录来实现跳过第一步反爬验证，目前还没有实现爬取过程中的滑块验证的突破
通过爬取部分页面的商品数据从而统计并预估全部页面商品数据（源代码中为遍历所有页面的理想状态）

源代码如下：

'''
利用Python-selenium对淘宝平台贵妃芒月平均销售额的统计
遍历所有页面，统计出全平台贵妃芒月销售额
因淘宝反爬机制，以下代码在登录后实现
'''
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
driver = webdriver.Chrome()

url = 'https://www.taobao.com'
name = '贵妃芒'

# 搜索
driver.get(url)
driver.find_element_by_id('q').send_keys(name)
driver.find_element_by_class_name('search-button').click()

# 手动登录
time.sleep(10)

# 初始化翻页次数和销售总额
n = 1
url_sale = 0
while n <= 100:
    n += 1
    time.sleep(3)
    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist > div > div > div:nth-child(1)')))
    mango_frame = driver.find_element_by_class_name('items')
    mango_list = mango_fram.find_elements_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div')
    # 遍历当前页商品
    for i in range(len(mango_list)):
        # 商品月购买人数及价格
        mango_purchase_number = int(mango_list[i].find_element_by_class_name('deal-cnt').text[:-3])
        mango_price = float(mango_list[i].find_element_by_xpath('//*[@class="price g_price g_price-highlight"]/strong').text)
        # 当前页面所有商品月销售额
        url_sale += mango_price * mango_purchase_number
    # 下一页面
    try:
        url_input = WebDriverWait(driver, 10).until(EC.presence_of_element_located(
            (By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input')))
        url = WebDriverWait(driver, 10).until(EC.element_to_be_clickable(
            (By.CSS_SELECTOR,'#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit')))
        url_input.clear()
        url_input.send_keys(n)
        time.sleep(3)
        url.click()
    except Exception as e:
    	print(n)
        break
        
# 预估商品所有页面数据
url_total_sale = url_sale / (n-1) * 100
# 将数据保存文档
with open('淘宝平台贵妃芒月平均销售额.txt', 'a', encoding='utf-8') as f:
    f.write(str(url_total_sale))

Jennis_HT

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
基于Python-selenium半自动化淘宝爬虫

爬虫设计初衷此程序旨在完成个人电子商务课程结课作业相关商品的信息爬取。注意事项淘宝具有一定的反爬机制，主要为搜索需要账号登录，以及在爬取过程中弹出的滑块验证此程序通过人工手动登录来实现跳过第一步反爬验证，目前还没有实现爬取过程中的滑块验证的突破通过爬取部分页面的商品数据从而统计并预估全部页面商品数据（源代码中为遍历所有页面的理想状态）源代码如下：'''利用Python-sele...
复制链接

扫一扫