【京东】抓取京东详情、评论_8.17

本文介绍如何抓取京东图书详情页上的信息,包括书名、价格、作者等12项内容。首先确定需求,然后通过Scrapy创建项目和爬虫,修改Items、Spider、Pipelines和Middleware。在Spider中处理URL和页面解析,利用Splash处理动态内容。Pipeline负责将数据存入数据库,Middleware启用代理,Setting中配置user-agent和Splash端口,同时连接数据库。
摘要由CSDN通过智能技术生成

一、确定需求

  1. 抓取京东详情页上的图书(打开搜索页面,输入出版社,点击按销量排、只看有货)
  2. 确定抓取元素:(共12个)
    ID / 书名 / 价格 / 作者 / 出版日期 / 出版社 / 总评论数 / 书店名 /
    ISBN /类型
  3. 新建表
  4. 打开docker,运行splash
    docker run -p 8050:8050 scrapinghub/splash

二、流程

(一) 创建项目、爬虫

scrapy startproject jd_list
scrapy genspider name example.com

(二) 修改 Items

  • 建字典,包含10个键
ID = scrapy.Field()
name = scrapy.Field()
price = scrapy.Field()
author = scrapy.Field()
pub_time = 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值