feapder框架采集amazon书籍

艾诺Ainuo

已于 2022-07-12 22:20:26 修改

阅读量569

点赞数

文章标签： python

于 2022-07-12 22:17:58 首次发布

本文链接：https://blog.csdn.net/weixin_40700938/article/details/125752722

版权

本文介绍了如何结合feapder框架和其封装的Selenium库来采集Amazon网站上的书籍数据。在settings.py中配置了webdriver和MySQL数据库连接，而在spider.py中编写了具体的爬虫逻辑。

摘要由CSDN通过智能技术生成

使用的是feapder框架+框架封装的selenium

settings.py

把feadper封装好的webdriver和mysql放开，mysql填写数据库信息

items.py

省略

spider.py

# -*- coding: utf-8 -*-
from amazon.items import cat_item # items.py里面
from amazon.items import detail_item # items.py里面
import feapder,time,random
from feapder.db.mysqldb import MysqlDB
from feapder.utils.webdriver import WebDriver

class AmazonSpider(feapder.AirSpider):
    rule = {
        'cat':'//div[@role="group"]/div' ,# 定位所有分类
        'cat_url':'./a/@href', # 分类的url
        'cat_title':'./a/text()', # 分类的标题名字
        'data_list':'//div[@id="gridItemRoot"]', # 详情页的数据列表
        'title':'.//img/@alt',# 定位商品的标题