feapder框架采集amazon书籍

本文介绍了如何结合feapder框架和其封装的Selenium库来采集Amazon网站上的书籍数据。在settings.py中配置了webdriver和MySQL数据库连接,而在spider.py中编写了具体的爬虫逻辑。
摘要由CSDN通过智能技术生成

使用的是feapder框架+框架封装的selenium

settings.py

把feadper封装好的webdriver和mysql放开,mysql填写数据库信息

items.py

省略

spider.py

# -*- coding: utf-8 -*-
from amazon.items import cat_item # items.py里面
from amazon.items import detail_item # items.py里面
import feapder,time,random
from feapder.db.mysqldb import MysqlDB
from feapder.utils.webdriver import WebDriver

class AmazonSpider(feapder.AirSpider):
    rule = {
        'cat':'//div[@role="group"]/div' ,# 定位所有分类
        'cat_url':'./a/@href', # 分类的url
        'cat_title':'./a/text()', # 分类的标题名字
        'data_list':'//div[@id="gridItemRoot"]', # 详情页的数据列表
        'title':'.//img/@alt',# 定位商品的标题
      
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值