Scrapy爬虫 1

网络爬虫原理

Scrapy框架结构

爬虫步骤:需求分析->创建项目->分析页面->实现爬虫->运行爬虫

安装Scrapy

常见安装错误

        解决方:1:先安装Twisted,再安装Scrapy。 Twisted的下载地址为http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

        解决方法2:通过conda安装 >conda install -c scrapinghub scrapy

Scrapy项目创建和执行过程

1,打开cmd   

2,在myScrapy文件夹中创建项目qidian_hot

3,scrapy startproject qidian_hot myScrapy

4,用PyCharm打开qidian_hot项目

5,在spiders包中创建文件qidian_hot_spiders.py

6,在qidian_hot_spiders.py文件中编写代码

#coding:utf-8
from scrapy import Request
from  scrapy.spiders import Spider
class HotSalesSpider(Spider):
    name = "hot" #爬虫名称
    start_urls=["https://www.qidian.com/rank/hotsales?style= 1&page=1"]
    def parse(self, response):#数据解析  爬到的网页自动发给这个函数分析 #获取class=book-mid-info的div中的内容
        list_selector=response.xpath("//div[@class='book-mid-info']")
        for one_selector in list_selector:
            #获取小说信息获取h4标签下a标签中的text文本内容
            name=one_selector.xpath("h4/a/text()").extract()[0]
            #获取作者   p[1]第一个p标签extract提取内容
            author=one_selector.xpath("p[1]/a[1]/text()").extract()[0]
            #获取类型
            type=one_selector.xpath("p[1]/a[2]/text()").extract()[0]
            #获取形式
            form=one_selector.xpath("p[1]/span/text()").extract()[0]
            #定义字典
            hot_dict={
                "name":name,
                "author":author,
                "type":type,
                "form":form,
            }
            yield hot_dict

 

7,在cmd中执行项目

scrapy crawl hot -o hot.csv

hot是qidian_hot_spiders.py文件代码中的name=”hot” 的爬虫名称

-o hot.csv等价于output=hot.csv  将爬虫结果保存到hot.csv文件中

8,执行结果

 

 

 

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值