python爬虫scrapy框架爬取网页数据_Python爬虫框架Scrapy 学习笔记 2 ----- 爬取Mininova网站种子文件信息...

weixin_39701861

于 2020-11-26 06:10:29 发布

阅读量135

点赞数

文章标签： python爬虫scrapy框架爬取网页数据

1. 任务描述

目标网站截图：

-------------------------------------

可以看到种子文件的列表，这些链接的url可以用正则表达式表示为： /tor/\d+

详情页截图

截图中的：资源名称, 资源大小，和资源描述就是我们要抓取的信息。

2. 定义scrapy item.

mininova.pyimport scrapy

class TorrentItem(scrapy.Item):

url = scrapy.Field()

name = scrapy.Field()

description = scrapy.Field()

size = scrapy.Field()

3. 查看网页源文件，确定我们要抓取的内容的XPath表达式。对XML Path Language不熟悉的话可以参考：http://www.w3.org/TR/xpath/ItemXPath

name//hi/text()

size//div[@id='specifications']/p[2]/text()[2]

descripthin//div[@id='description']

4. 最终的代码为：

mininova.pyimport scrapy

from scrapy.contrib.spiders import CrawlSpider, Rule

from scrapy.contrib.linkextractors import LinkExtractor

class TorrentItem(scrapy.Item):

url = scrapy.Field()

name = scrapy.Field()

description = scrapy.Field()

size = scrapy.Field()

class MininovaSpider(CrawlSpider):

name = 'mininova'

allowed_domains = ['mininova.org']

start_urls = ['http://www.mininova.org/yesterday']

rules = [Rule(LinkExtractor(allow=['/tor/\d+']), 'parse_torrent')]

def parse_torrent(self, response):

torrent = TorrentItem()

torrent['url'] = response.url

torrent['name'] = response.xpath("//h1/text()").extract()

torrent['description'] = response.xpath("//div[@id='description']").extract()

torrent['size'] = response.xpath("//div[@id='specifications']/p[2]/text()[2]").extract()

return torrent

5. 运行代码

将mininova.py复制到C:\

打开cmd，输入命令： scrapy runspider --output=spider_out.json mininova.py

文件的后缀名很重要，scrapy会根据后缀名确定输出格式

6. 查看输出

weixin_39701861

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬虫scrapy框架爬取网页数据_Python爬虫框架Scrapy 学习笔记 2 ----- 爬取Mininova网站种子文件信息...

1. 任务描述目标网站截图：-------------------------------------可以看到种子文件的列表，这些链接的url可以用正则表达式表示为： /tor/\d+详情页截图截图中的：资源名称, 资源大小，和资源描述就是我们要抓取的信息。2. 定义scrapy item.mininova.pyimport scrapyclass TorrentItem(scrapy.Item...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。