python|scrapy爬虫|当当网的一万本书

最新推荐文章于 2021-02-22 22:52:41 发布

牛奶与喵

最新推荐文章于 2021-02-22 22:52:41 发布

阅读量336

点赞数 1

分类专栏： python 文章标签： python scrapy 当当爬虫

本文链接：https://blog.csdn.net/qq_43691842/article/details/101361533

版权

python 专栏收录该内容

18 篇文章 7 订阅

订阅专栏

python爬虫——以当当网为例
要求：获得当当网中国现代小说中一万本书的书名、作者、价格
软件:anaconda下的scrapy框架，pycharm

第一步：下载scrapy

cmd:scrapy//
(if no module named'scrapy')
pip install scrapy

第二步：创建项目

新建文件夹dangdang

  	cmd:cd dangdang
   	scrapy startproject dangdangs//创建项目

第三步：编译pycharm爬行命令
打开当当网的中国现代小说页面，该页面网址为：http://category.dangdang.com/cp01.03.30.00.00.00.html
在网页空白处右键点击检查，查看对应的代码

用pycharm打开dangdangs.py
用xpath定位书名、作者和价格

# -*- coding: utf-8 -*-
import scrapy

class DangdangsSpider(scrapy.Spider):
    name = 'dangdangs'
    allowed_domains = ['category.dangdang.com']
    start_urls = ['http://category.dangdang.com/cp01.03.30.00.00.00.html']

    def parse(self, response):
        selector = response.xpath('//ul[@class="bigimg"]//li')//进入ul class=bigimg，并获取其下所有li行的信息
        for s in selector://将每行信息提取出来
            title = s.xpath('p[1]/a/@title').extract_first()//书名：第一个p下a的title属性
            author = s.xpath('p[5]/span/a/@title').extract_first()//作者：第五个p下span下a的title属性
            price = s.xpath('p[3]/span/text()').extract_first()//价格：
            yield {
                'title': title,
                'author': author,
                'price': price,
            }//设置表格的列名
        next_urls = response.xpath('//div[@class="paging"]/ul/li[@class="next"]/a/@href').extract_first()//获得下一页网址
        if next_urls://继续爬下一页
            next_url=response.urljoin(next_urls)
            yield  scrapy.http.Request(next_url,callback=self.parse)
        pass

4.将爬取内容导出到excel
在pycharm命令行内输入：

scrapy crawl dangdangs -o dd.csv -s FEED_EXPORT_ENCODING='utf-8-sig'

其中FEED_EXPORT_ENCODING=‘utf-8-sig’解决导出到excel文字乱码问题

牛奶与喵

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录