Python爬虫：selenium+xpath爬取淘宝商品信息

最新推荐文章于 2023-11-19 15:03:56 发布

影雀

最新推荐文章于 2023-11-19 15:03:56 发布

阅读量2.4k

点赞数 5

分类专栏： Python爬虫开发爬虫开发文章标签：爬虫 selenium python

如转载请指明出处！

本文链接：https://blog.csdn.net/qq_42952437/article/details/94728066

版权

爬虫开发同时被 2 个专栏收录

35 篇文章 1 订阅

订阅专栏

Python爬虫开发

31 篇文章 2 订阅

订阅专栏

爬取内容：商品名称、价格、销售量、店铺名、商家地址

1 导入库函数：

from selenium import webdriver
import time
from lxml import etree
import csv

2、driver = webdriver.Firefox()#火狐浏览器模拟请求

3、解析函数

def get_info(url, page):#页面请求解析函数
    page = page+1#爬取页数加一
    driver.get(url)
    driver.implicitly_wait(10)#隐式等待10秒
    selector = etree.HTML(driver.page_source)
    infos = selector.xpath('//div[@class="item J_MouserOnverReq  "]')
    for info in infos:
        goods = info.xpath('div/div/div/a/img/@alt')[0]#商品名称
        price = info.xpath('div[2]/div/div/strong/text()')[0]#价格
        sell = info.xpath('div[2]/div/div[@class="deal-cnt"]/text()')[0]#销量
        if sell:#判断销量是否为空
            sells = sell[0]
        else:
            sells = 0
           
        shop = info.xpath('div[2]/div[3]/div/a/span[2]/text()')[0]#店铺
        address = info.xpath('div[2]/div[3]/div[@class="location"]/text()')[0]#地址
        taobao_info = [goods, price, sell, shop, address] #创建商品列表
        save(taobao_info)#调用函数保存为csv

        #控制台输出
        print(goods+'\n',
              price+'\n',
              sell+'\n',
              shop+'\n',
              address+'\n'
              )
       
    if page <= 2:#判断当前页数，只爬取两页
        NextPage(url, page)#调用翻页函数
    else:
        pass

4、保存函数

def save(iten):#保存函数
    with open('taobao.csv', 'a+',encoding='utf-8')as f:
        writer = csv.writer(f)
        writer.writerow(iten)

5、翻页函数

def NextPage(url, page):#翻页函数
    driver.get(url)#请求当前页面url
    driver.implicitly_wait(5)#隐式等待5秒
    driver.find_element_by_xpath('//a[@trace="srp_bottom_pagedown"]').click()#点击翻页
    time.sleep(4)#等待4s加载
    get_info(driver.current_url, page)#再次传入下一页的当前url,调用函数并解析页面

主函数如下：

if __name__ == '__main__':
    save(['名称','价格/元','销售量','店铺','地址'])#写入标题头
    url = 'https://taobao.com'#首页url
    driver.get(url)#请求首页面
    driver.implicitly_wait(10)
    driver.find_element_by_id('q').clear()#清空搜索框
    driver.find_element_by_id('q').send_keys('男士短袖')#输入搜索内容
    driver.find_element_by_class_name('btn-search').click()#点击搜索
    time.sleep(20)#延迟20s登录
    get_info(driver.current_url, 1)#获取页面的当前url传入解析函数，请求并解析页面

爬取结果如下：

影雀

关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫：selenium+xpath爬取淘宝商品信息

爬取内容：商品名称、价格、销售量、店铺名、商家地址1 导入库函数：from selenium import webdriverimport timefrom lxml import etreeimport csv2、driver = webdriver.Firefox()#火狐浏览器模拟请求3、解析函数def get_info(url, page):#页面请求解析函数...
复制链接

扫一扫

专栏目录