Selenium抓取淘宝商品信息

最新推荐文章于 2024-07-01 12:35:25 发布

咕噜咕噜day

最新推荐文章于 2024-07-01 12:35:25 发布

阅读量629

点赞数

分类专栏： Python数据分析文章标签：爬虫 Python

本文链接：https://blog.csdn.net/qq_36533552/article/details/81635879

版权

Python数据分析专栏收录该内容

10 篇文章 0 订阅

订阅专栏

selenium抓取淘宝商品信息
（动态页面抓取selenium实例）

目标：爬取前100页淘宝美食信息
淘宝链接：

思路：
很明显淘宝网页使用的是动态网页，需要爬取前100页美食的信息，可以分为两步
第一步：抓取第一页美食内容然后再调用提取美食信息的函数
第二步：抓取下一页美食内容然后再调用提取美食信息的函数

备注：
1.Python字典items()方法用于返回字典dict的(key，value)元组对的列表

完整代码：

import re

from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from pyquery import PyQuery as pq
from config import *

import pymongo

client = pymongo.MongoClient(MONGO_URL)
db = client[MONGO_DB]

browser = webdriver.Chrome()
# 浏览器的响应时间
wait = WebDriverWait(browser, 10)


def search():
    try:
        browser.get('https://www.taobao.com')
        #直到加载结束才选择文本框
        input = wait.until(
            EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))
        )
        #直到能点击时才获取点击按钮
        submit = wait.until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button'))
        )
        #在input文本框输入文本
        input.send_keys(KEYWORDS)
        #点击搜索按钮
        submit.click()
        #搜索总页数,都不是自己输入直接用copy selector提取的
        total = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.total')))
        return total.text
        print(total.text)
        #等全部加载完才能调用获取商品的函数
        get_products()
    except TimeoutException:
        #如果超时就重新再爬
        return search()

def next_page(page_number):
    try:
        input = wait.until( #页码处的文本框
            EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > input'))
        )
        #页码处的点击按钮
        submit = wait.until(
            EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > div.form > span.btn.J_Submit'))
        )
        #爬之前先清空搜索栏
        input.clear()
        #输入数字
        input.send_keys(page_number)
        submit.click()
        #判断当前页码是否是传入的页码
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div > ul > li.item.active > span'), str(page_number)))
        get_products()
    except TimeoutException:
        next_page(page_number)

#提取商品信息的函数
def get_products():
    #知道获取商品的内容标签
    #具体到获取商品的信息的selector必须要自己输入，直接copy的不能使用
    wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-itemlist .items .item')))
    html = browser.page_source
    doc = pq(html)
    items = doc('#mainsrp-itemlist .items .item').items()#Python字典items()方法用于返回字典dict的(key，value)元组对的列表
    # 这里这种返回dict的方法可以借鉴
    for item in items:
        product = {
            'image' : item.find('.pic .img').attr('src'),
            'price' : item.find('.price').text().replace('\n', ''),
            'location' : item.find('.location').text(),
            'deal' : item.find('.deal-cnt').text()[:-3],
            'shop' : item.find('.shop').text(),
            'title': item.find('.title').text().replace('\n', '')
        }
        print(product)
        save_to_mongo(product)

def save_to_mongo(result):
    try:
        if db[MONGO_TABLE].insert(result):#insert的对象是dict，但是result在前一个函数已经变成了dict
            print('保存到mongo成功')
    except Exception:
        print('保存到mongo失败')


def main():
    try:
        total = search()# 获取总页码数字，顺便调用函数提取第一页商品信息
        #提取数字，这个用法注意
        total = int(re.compile('(\d+)').search(total).group(1))
        for i in range(2, total + 1):
            next_page(i)
    except Exception:
        print('出错了')
    finally:
        browser.close()

if __name__ == '__main__':
    main()

MONGO_URL = 'localhost'
MONGO_DB = 'taobao'
MONGO_TABLE = 'product'
KEYWORDS = '电脑'

咕噜咕噜day

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录