Python 爬虫之 selenium 爬虫，模拟浏览器爬取天猫信息

最新推荐文章于 2023-12-24 11:27:00 发布

Stopfollow

最新推荐文章于 2023-12-24 11:27:00 发布

阅读量1.3k

点赞数 1

分类专栏： python爬虫文章标签：爬虫 selenium

本文链接：https://blog.csdn.net/Stopfollow/article/details/78459502

版权

本文介绍了如何使用Python的selenium库模拟浏览器行为，爬取天猫网站上的商品信息。通过读取文本中的商品ID，逐个访问页面，提取所需数据并保存到CSV文件。详细讲解了爬虫的实现步骤，包括页面加载、信息提取和数据保存。展示了selenium在自动化爬取中的强大功能。

摘要由CSDN通过智能技术生成

由于工作需要，需要提取到天猫400个指定商品页面中指定的信息，于是有了这个爬虫。这是一个使用 selenium 爬取天猫商品信息的爬虫，虽然功能单一，但是也算是 selenium 爬虫的基本用法了。

源码展示

# -*- coding: utf-8 -*-

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import csv
import time

class TM_itemdetail(object):
    def __init__(self,readname='ids.txt',savename='info.csv'):
        '''传入2个参数，分别是读取ID的文本名称和保存信息的表格名称，给予默认值'''
        self.readname = readname
        self.savename = savename
        self.driver = webdriver.Chrome()
        self.driver.maximize_window()
        # 设置一个智能等待
        self.waiter = WebDriverWait(self.driver,5)
        self.get_csv()

    def get_csv(self):
        '''创建一个表格，并且给表格添加标题行'''
        with open(self.savename,'w',newline='') as f:
            fieldnames = ['id','info']
            writer = csv.DictWriter(f,fieldnames=fieldnames)
            writer.writeheader()

    def write_info