python爬虫scrapy框架爬取网页数据_Python爬虫框架Scrapy 学习笔记 2 ----- 爬取Mininova网站种子文件信息...

1. 任务描述

目标网站截图:

wKioL1SiFROTeGudAAK_QXeOQrw434.jpg

-------------------------------------

可以看到种子文件的列表,这些链接的url可以用正则表达式表示为: /tor/\d+

详情页截图

wKiom1SiFWnyJKHKAAT3acW5wiY414.jpg

截图中的:资源名称, 资源大小,和资源描述就是我们要抓取的信息。

2. 定义scrapy item.

mininova.pyimport scrapy

class TorrentItem(scrapy.Item):

url = scrapy.Field()

name = scrapy.Field()

description = scrapy.Field()

size = scrapy.Field()

3. 查看网页源文件,确定我们要抓取的内容的XPath表达式。对XML Path Language不熟悉的话可以参考:http://www.w3.org/TR/xpath/ItemXPath

name//hi/text()

size//div[@id='specifications']/p[2]/text()[2]

descripthin//div[@id='description']

4. 最终的代码为:

mininova.pyimport scrapy

from scrapy.contrib.spiders import CrawlSpider, Rule

from scrapy.contrib.linkextractors import LinkExtractor

class TorrentItem(scrapy.Item):

url = scrapy.Field()

name = scrapy.Field()

description = scrapy.Field()

size = scrapy.Field()

class MininovaSpider(CrawlSpider):

name = 'mininova'

allowed_domains = ['mininova.org']

start_urls = ['http://www.mininova.org/yesterday']

rules = [Rule(LinkExtractor(allow=['/tor/\d+']), 'parse_torrent')]

def parse_torrent(self, response):

torrent = TorrentItem()

torrent['url'] = response.url

torrent['name'] = response.xpath("//h1/text()").extract()

torrent['description'] = response.xpath("//div[@id='description']").extract()

torrent['size'] = response.xpath("//div[@id='specifications']/p[2]/text()[2]").extract()

return torrent

5. 运行代码

将mininova.py复制到C:\

打开cmd,输入命令: scrapy runspider --output=spider_out.json mininova.py

文件的后缀名很重要,scrapy会根据后缀名确定输出格式

wKiom1Sic8KRSeTgAAWqQmyagD4496.jpg

6. 查看输出

wKioL1SidPeDJaA9AASuaCGAUmc859.jpg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值