由于工作需要,需要提取到天猫400个指定商品页面中指定的信息,于是有了这个爬虫。这是一个使用 selenium 爬取天猫商品信息的爬虫,虽然功能单一,但是也算是 selenium 爬虫的基本用法了。
源码展示
# -*- coding: utf-8 -*-
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException
import csv
import time
class TM_itemdetail(object):
def __init__(self,readname='ids.txt',savename='info.csv'):
'''传入2个参数,分别是读取ID的文本名称和保存信息的表格名称,给予默认值'''
self.readname = readname
self.savename = savename
self.driver = webdriver.Chrome()
self.driver.maximize_window()
# 设置一个智能等待
self.waiter = WebDriverWait(self.driver,5)
self.get_csv()
def get_csv(self):
'''创建一个表格,并且给表格添加标题行'''
with open(self.savename,'w',newline='') as f:
fieldnames = ['id','info']
writer = csv.DictWriter(f,fieldnames=fieldnames)
writer.writeheader()
def write_info