scrapy爬虫笔记（入门级案例）

最新推荐文章于 2024-04-30 13:30:30 发布

diao49908

最新推荐文章于 2024-04-30 13:30:30 发布

阅读量153

点赞数

文章标签： python 爬虫开发工具

原文链接：http://www.cnblogs.com/aby321/p/11248937.html

版权

初学scrapy框架，很多地方一知半解，先跟着书上的代码一个字一个字敲，还有很多细节值得钻研

先来个简单的吧，新建一个scrapy项目xiaozhu

小猪短租信息爬取、不分页、不进入详细页面查找，输出形式为打印

只搜寻一个网页上的信息 http://bj.xiaozhu.com/search-duanzufang-p2-0/，字段为title（名称）、price（价格）、href（每个房源的详细页链接）

items.py 修改如下：

from scrapy import Item,Field

class XiaozhuItem(Item):
    #define the fields for your item here like:
    title = Field()
    price = Field()
    href = Field()
    pass

settings.py 在默认上面添加了以下信息，其他不动

# Override the default request headers:
DEFAULT_REQUEST_HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",

}
# 配置使用Pipeline
ITEM_PIPELINES = {
    'xiaozhu.pipelines.XiaozhuPipeline': 300,
}

最重要的就是自己写的爬虫规则文件xiaozhuspider.py了

 1 from scrapy.spiders import CrawlSpider
 2 from scrapy.selector import Selector
 3 from xiaozhu.items import XiaozhuItem
 4 
 5 class XiaozhuSpider(CrawlSpider):
 6     # 定义该Spider的名字
 7     name = 'xiaozhu'
 8     # # 定义该Spider允许爬取的域名
 9     #allowed_domains = ['xiaozhu.com']
10     # 定义该Spider爬取的首页列表
11     start_urls = ['http://bj.xiaozhu.com/search-duanzufang-p2-0/']
12 
13     def parse(self, response):
14         #print(response,'\n') # 返回状态码
15         #print(response.text)
16         item = XiaozhuItem()
17         selector = Selector(response)
18         list = selector.xpath('//*[@id="page_list"]/ul/li')
19         #print(len(list),list)
20         for i in list:
21             #print(i)
22             item['title'] = i.xpath('div[2]/div[2]/a/span/text()').extract()[0]
23             item['price'] = i.xpath('div[2]/div[1]/span/i/text()').extract()[0]
24             item['href'] = i.xpath('a/@href').extract()[0]
25             #print(item)
26 
27             yield item

说明：

1. 类的名字推荐按照这样书写，并且类的属性需要按照这样书写

2. 函数名和参数是固定的格式

3. 函数体内写爬虫规则，从18行开始就用到的是之前的xpath爬取方法了，区别是每行后面多了一个extract()

4. item格式是固定的字典型，并且要与items.py中定义的字段名称一致，因为16行item是xiaozhuItem( )的一个对象

5. 调试阶段可以在本文件中print看结果（但是需要运行整个项目而不是本文件）

6. 最后yield item 是迭代器，可以简单的认为是return函数吧，但是还是有很多很多不一样的地方，这个不展开说了

7. 还有个坑就是：第3行引入items.py中的类时，如果按照我这么写会提醒错误，解决方法是将工程文件作为Sources root。设置方法是在PyCharm中选择工程文件夹右键，选择倒数第二行的“Mark Dictionary as”-"Sources root"

pipelines.py 是写保存方法的，这里单纯的print一下结果

class XiaozhuPipeline(object):

    def process_item(self, item, spider):
        print(item)
        return item

mian.py 执行语句后面添加.split()，否则报错

from scrapy import cmdline
cmdline.execute("scrapy crawl xiaozhu".split())

运行main.py 打印结果：

输出和我想象的不太一样呢……问了度娘说改成这样

scrapy crawl xiaozhu --nolog

再运行输出结果,bingo!

转载于:https://www.cnblogs.com/aby321/p/11248937.html