D 1. 实战 - scrapy爬虫抓取当当图书

最新推荐文章于 2024-04-17 10:03:03 发布

北欧VI海盗

最新推荐文章于 2024-04-17 10:03:03 发布

阅读量542

点赞数

分类专栏： python 爬虫学习笔记_18年7月

本文链接：https://blog.csdn.net/qq_41682050/article/details/81154855

版权

本文档介绍了使用Scrapy爬虫抓取当当网自营湖南教育出版社图书的详细过程，包括项目需求、页面分析、数据库操作、创建spider项目及结果验证。在抓取过程中遇到的问题，如数据传递、请求过滤和数据存储错误等，也进行了讨论和解决方案的分享。

摘要由CSDN通过智能技术生成

1 抓取当当图书详情，存入mysql

1.1 项目需求

抓取当当网自营的湖南教育出版社图书信息，通过异步的方式存入mysql数据库。
训练目的：html，异步存储
url 地址：
http://search.dangdang.com/?key=%BA%FE%C4%CF%BD%CC%D3%FD%B3%F6%B0%E6%C9%E7&ddsale=1&page_index=1
图书信息包括：
- ID
- 名字 name
- ISBN
- 原价 price_p
- 现价 price_n
- 作者 author
- 出版日期 pub_time
- 出版社 publisher
- 总评分 total_star
- 评论数 comment_num
- 书店 store
- 类型 book_type

1.2 页面分析

图书列表页面分析

scrapy shell
fetch('http://search.dangdang.com/?key=%BA%FE%C4%CF%BD%CC%D3%FD%B3%F6%B0%E6%C9%E7&ddsale=1')
sel = response.css('ul.bigimg li')
# 书名
name = sel[0].css('p.name a::attr(title)').extract_first()
# 价格
price = sel[0].css('p.price span::text').extract_first()
# 作者
author = sel[0].css('p.search_book_author span')[0].css('a::text').extract()
# 出版日期 </